ChatGPT obtiene casi el 50% de puntaje en el examen práctico de certificación para oftalmología
En la prueba gratuita de OphthoQuestions para los exámenes OKAP/WQE, ChatGPT respondió correctamente al 46% de las preguntas en enero de 2023 y el 58% en febrero de 2023.
ChatGPT es un chatbot de inteligencia artificial (IA) desarrollado desarrollado por OpenAI con importantes implicaciones y ya ha participado en varias aplicaciones científicas científicas y médicas. Su uso responsable en la enseñanza y la práctica clínica es de suma importancia. Los estudiantes deben reconocer las limitaciones de ChatGPT, que, en ocasiones, puede proporcionar información incorrecta.Un preprint reciente reveló que ChatGPT rinde al nivel de un estudiante de medicina de tercer año a la hora de responder preguntas al United States Medical Licensing Examination (USMLE) Step 1 y 2.
Un estudio realizado en la Universidad de Toronto, amplió una investigación previa del mismo equipo de investigación que mostró que la versión anterior del chatbot respondió correctamente al 46% de las preguntas de opción múltiple en enero de 2023 y al 58% en febrero de 2023.
La evidencia ha demostrado que los chatbots de IA producen respuestas similares a las humanas a las indicaciones introducidas, siendo modelos dinámicos de lenguaje que funcionan para mejorar los sistemas conversacionales existentes.
Se registraron la proporción de estudiantes de oftalmología que utilizaron la prueba OphthoQuestions y seleccionaron la misma respuesta que ChatGPT. El resultado primario del estudio fue el número de preguntas de opción múltiple que el chatbot fue capaz de responder correctamente. Los investigadores realizaron el análisis de datos con Microsoft Excel, y la IA generó respuestas para el examen de certificación de la junta en marzo de 2023.
La longitud media de las preguntas fue de 306,40 caracteres y la longitud media de las respuestas del chatbot fue de 473,83 caracteres. El análisis mostró una respuesta positiva: de 125 preguntas de opción múltiple basadas en texto, 105 (84%) fueron respondidas correctamente por el chatbot, además del 100% de las preguntas en medicina general, retina y vítreo, y uveítis, pero no fue tan contundente en óptica clínica respondiendo correctamente a 8 de 13 preguntas (62%).
Por término medio, el 71% (IC del 95%: 66-75) de los alumnos de oftalmología seleccionaron la misma respuesta a las preguntas de opción múltiple. Los investigadores observaron que chatGPT proporcionó explicaciones y conocimientos adicionales a 123 de las 125 preguntas (98%). Cuando se eliminaron las opciones de elección múltiple, el análisis mostró que la IA respondió correctamente a 49 de las 78 preguntas independientes (63%).
La longitud media de las preguntas de opción múltiple que el chatbot respondió correctamente fue de 217 caracteres y la de las que respondió incorrectamente fue de 246 caracteres. Por otro lado, la longitud media de las respuestas correctas fue de 428 caracteres y la de las incorrectas, de 465 caracteres.
Las limitaciones del estudio se enmarcan en que el chatbot ofrece material de preparación para los exámenes de certificación de la junta, pero puede tener un rendimiento diferente en los exámenes oficiales. Además, produce respuestas únicas por usuario y estas podrían diferir si se repitiera el estudio.