Rendimiento de GPT-5.2 de OpenAI Supera el Promedio Humano en Examen Universitario Japonés de 2026

Editado por: Veronika Radoslavskaya

Los modelos de inteligencia artificial alcanzaron un hito académico en Japón tras su participación en el Examen Común para la Admisión Universitaria de 2026. Los resultados, reportados el martes 20 de enero de 2026, revelaron un avance significativo en las capacidades de la IA, particularmente con el modelo GPT-5.2 Thinking de OpenAI, que obtuvo una puntuación global de 96.9 sobre 100 en 15 materias evaluadas. Este experimento colaborativo fue organizado por el periódico Nikkei y la empresa japonesa de IA LifePrompt, poniendo a prueba las iteraciones más recientes de OpenAI y Google.

El modelo GPT-5.2 Thinking de OpenAI demostró un dominio casi total en el conjunto de pruebas, alcanzando la perfección en nueve de las quince asignaturas sometidas a escrutinio. En comparación, su competidor directo, Gemini 3.0 Pro de Google, registró una calificación general de 91.4. Es importante destacar que el examen completo consta de 21 materias distribuidas en siete disciplinas, si bien la prueba experimental se centró en las 15 más populares. La puntuación media estimada para los aspirantes humanos en estas 15 materias durante el ciclo de 2026 se situó en 58.1, lo que establece una clara diferencia de rendimiento con respecto al desempeño humano promedio.

El progreso de los modelos de OpenAI muestra una aceleración constante en su capacidad de procesamiento y razonamiento aplicado a la evaluación estandarizada. El modelo anterior de OpenAI había registrado un promedio de 66 en 2024 y 91 en 2025 en esta misma prueba. El análisis detallado de los resultados de 2026 indicó que estas IA sobresalieron notablemente en campos cuantitativos, incluyendo matemáticas, física, química y biología, donde el razonamiento estructurado y la lógica matemática son fundamentales.

Esta excelencia en las áreas STEM contrasta con las dificultades observadas en las humanidades y el razonamiento espacial, un patrón que sugiere limitaciones persistentes en la interpretación de información gráfica compleja. Específicamente, se manifestaron obstáculos en tareas que requerían el reconocimiento de información visual irregular, como la interpretación de mapas mundiales, donde se registraron errores significativos. Esta disparidad entre el rendimiento cuasi-perfecto en lógica y las fallas en la cartografía subraya la necesidad de refinar las capacidades multimodales de los sistemas de inteligencia artificial.

El contexto de estas pruebas académicas se alinea con esfuerzos previos para medir la inteligencia artificial en entornos de alta exigencia intelectual, como el proyecto To-Robo-kun del Instituto Nacional de Informática (NII) de Japón, que en 2015 obtuvo una puntuación superior al promedio. La Dra. Noriko Arai, líder de ese equipo, ha señalado que estos ejercicios ayudan a determinar los campos de aplicación industrial para la IA y a guiar la evolución de los sistemas educativos hacia habilidades humanas irremplazables. La irrupción de GPT-5.2 Thinking en 2026, en competencia con Gemini 3 Pro, posiciona estos resultados como un barómetro de la supremacía en el razonamiento profundo, reafirmando la ventaja de GPT-5.2 en la ejecución de tareas analíticas y de planificación complejas.

3 Vues

Fuentes

  • AGERPRES

  • China.org.cn

  • Xinhua

  • Nippon.com

  • OfficeChai

  • EvoLink.AI

¿Encontró un error o inexactitud?Consideraremos sus comentarios lo antes posible.