OpenAI a annoncé le 25 septembre 2025 le lancement de GDPval, une nouvelle référence d'évaluation conçue pour mesurer la performance des modèles d'IA sur des tâches professionnelles concrètes à valeur économique.
Ce benchmark novateur vise à combler une lacune dans les méthodes d'évaluation actuelles, qui se concentrent souvent sur des problèmes académiques plutôt que sur des applications pratiques. GDPval évalue les modèles d'IA dans 44 professions distinctes, couvrant neuf secteurs clés qui contribuent au PIB américain. Les tâches sont basées sur le travail quotidien de professionnels expérimentés, permettant de comparer les résultats de l'IA à ceux produits par des experts humains en termes de qualité, de vitesse et de coût.
Les premiers résultats révèlent des avancées significatives. Le modèle GPT-5 d'OpenAI a été jugé supérieur ou égal aux experts humains dans 40,6 % des cas. Claude Opus 4.1 d'Anthropic a légèrement surpassé GPT-5 avec un score de 49 %, bien qu'OpenAI attribue cette différence en partie à une meilleure esthétique des graphiques générés. La performance de GPT-5 représente une amélioration considérable par rapport à GPT-4o, qui avait obtenu environ 13,7 % il y a 15 mois, démontrant une progression rapide des capacités de l'IA.
En termes de coût, GPT-5 est nettement plus abordable que Claude Opus 4.1. Les appels API pour GPT-5 coûtent 1,25 $ par million de jetons d'entrée et 10 $ par million de jetons de sortie, contre 15 $ et 75 $ respectivement pour Claude Opus 4.1. Cette efficacité économique est un facteur clé pour l'adoption généralisée de l'IA dans le monde professionnel.
Des recherches indiquent que l'IA pourrait permettre aux professionnels de gagner jusqu'à 12 heures par semaine d'ici 2029, leur permettant de se concentrer sur des tâches à plus forte valeur ajoutée. OpenAI prévoit d'élargir GDPval pour inclure davantage d'industries et de flux de travail interactifs, afin de mieux refléter le potentiel transformateur de l'IA dans l'économie mondiale.
L'introduction de GDPval s'inscrit dans une tendance plus large où l'évaluation de l'IA se déplace vers des mesures d'impact économique tangible. Des analyses récentes suggèrent que l'IA générative pourrait ajouter entre 2,6 et 4,4 billions de dollars à l'économie mondiale chaque année, soulignant l'importance de ces benchmarks pour quantifier le retour sur investissement réel de l'IA.