OpenAI Lanza GDPval: Una Nueva Métrica para Evaluar el Impacto Económico de la IA

Editado por: Veronika Radoslavskaya

OpenAI ha presentado GDPval, un innovador punto de referencia diseñado para medir el valor económico que los modelos de inteligencia artificial (IA) pueden generar en diversas industrias y profesiones. Este avance representa un paso significativo hacia la cuantificación del impacto real de la IA, alejándose de las métricas académicas abstractas para centrarse en tareas del mundo real que tienen un valor económico tangible.

El benchmark GDPval abarca nueve sectores clave de la economía estadounidense y 44 profesiones distintas, evaluando la capacidad de los modelos de IA para realizar tareas que antes requerían la experiencia humana. En su primera iteración, expertos en la materia compararon informes generados por IA con su propio trabajo, seleccionando la opción superior. Los resultados iniciales revelan que el modelo GPT-5 de OpenAI demostró ser superior o equivalente a los expertos humanos en el 40.6% de los casos. Sin embargo, el modelo Claude Opus 4.1 de Anthropic superó ligeramente a GPT-5, siendo considerado no inferior a los expertos humanos en el 49% de las tareas.

OpenAI atribuye parte de esta diferencia a la tendencia de Claude a generar gráficos más estéticamente agradables, lo que sugiere que la presentación visual puede influir en la percepción del rendimiento. A pesar de esto, el progreso de GPT-5 es notable, casi triplicando el rendimiento de su predecesor, GPT-4o, que hace unos 15 meses obtuvo un puntaje del 13.7% en una métrica similar. Este nuevo enfoque de evaluación es crucial en un momento en que las industrias buscan cada vez más retornos tangibles de sus inversiones en IA.

Aaron Chatterji, economista jefe de OpenAI, ha destacado que los modelos de IA pueden liberar a los profesionales de tareas repetitivas, permitiéndoles concentrarse en trabajos de mayor significado y valor. La iniciativa GDPval se alinea con la misión de OpenAI de asegurar que los beneficios de la inteligencia artificial general (AGI) se distribuyan ampliamente. La comparación de rendimiento también se extiende a la eficiencia de costos. GPT-5 tiene un costo de llamada a la API de $1.25 por millón de tokens de entrada y $10 por millón de tokens de salida. En contraste, Claude Opus 4.1 tiene un costo de $15 por millón de tokens de entrada y $75 por millón de tokens de salida, lo que hace que GPT-5 sea significativamente más económico para usos extensivos.

OpenAI reconoce que la versión actual de GDPval, centrada en la generación de informes, no abarca la totalidad del trabajo profesional. La compañía planea desarrollar pruebas más completas en el futuro que incluirán más industrias y flujos de trabajo interactivos, buscando así una evaluación más holística de las capacidades de la IA. Este desarrollo subraya la importancia de medir el progreso de la IA no solo por su inteligencia, sino por su contribución económica y su capacidad para integrarse de manera efectiva en el tejido laboral existente, impulsando la productividad y abriendo nuevas vías para la innovación y el crecimiento.

Fuentes

  • 新浪财经

  • OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现

  • How GPT-5 compares to Claude Opus 4.1

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.

OpenAI Lanza GDPval: Una Nueva Métrica par... | Gaya One