ChatGPT, emblemático de la inteligencia artificial, fue sometido a rigurosa evaluación durante la PAES, mostró resultados intrigantes que destacan su capacidad y limitaciones.
En un estudio inédito llevado a cabo por Evoacademy, la IA ChatGPT fue sometida a la Prueba de Admisión a la Educación Superior (PAES), desencadenando revelaciones significativas sobre su desempeño en áreas clave como comprensión lectora, historia, matemáticas y ciencias.
Los resultados revelaron un rango de éxito para ChatGPT, oscilando entre un 81,3% y un impresionante 96% en respuestas correctas. No obstante, sus puntos más bajos se registraron en Física, mientras que en Comprensión Lectora alcanzó sus máximos con una puntuación de 918.
¿Como le fue a ChatGPT en la PAES?
Utilizando herramientas de análisis avanzadas como WebPlotDigitizer, se compararon los resultados de ChatGPT con las distribuciones de puntajes de la PAES, concluyendo que habría estado en el 4% superior en Comprensión Lectora, su área de mejor desempeño.
No obstante, el éxito de la IA se vio empañado por lo que los expertos han identificado como “alucinaciones”, errores comunes en inteligencias artificiales generativas. Estas pueden generar respuestas coherentes pero inexactas debido a la interpretación contextual de palabras y conceptos.
A pesar de las actualizaciones que permiten a ChatGPT interpretar imágenes, aún enfrenta dificultades con gráficos y diagramas en pruebas de Biología, aunque destaca en problemas matemáticos relacionados con geometría.
Sebastián Cisterna, CEO de Evoacademy, sugiere que ajustes específicos a través de “fine-tuning” podrían mejorar el rendimiento de la IA en áreas específicas de la PAES, beneficiando a estudiantes que buscan mejorar sus puntajes.
La versión de pago de ChatGPT, basada en GPT4.0, superó significativamente a la versión gratuita (GPT3.4) en la PAES, mostrando un aumento del 15% al 20% en su desempeño. Estos resultados destacan la influencia de las actualizaciones en el mejoramiento del rendimiento de la IA en pruebas de este tipo.
Average Rating