Op 25 september 2025 heeft OpenAI de lancering aangekondigd van GDPval, een nieuwe benchmark die is ontworpen om de economische prestaties van AI-modellen te evalueren in een breed scala aan sectoren. Deze maatstaf beoogt de daadwerkelijke economische waarde die AI kan genereren te kwantificeren, door de output van AI-modellen te vergelijken met het werk van menselijke experts. GDPval bestrijkt 44 beroepen in negen belangrijke sectoren die bijdragen aan het Amerikaanse Bruto Binnenlands Product (BBP).
De eerste resultaten van de GDPval-test tonen aan dat GPT-5 in 40,6% van de gevallen als superieur of gelijkwaardig aan menselijke experts werd beoordeeld. Anthropic's Claude Opus 4.1 presteerde met 49% net iets beter, hoewel OpenAI opmerkt dat dit deels te danken was aan de esthetische presentatie van grafieken. Deze resultaten vertegenwoordigen een aanzienlijke vooruitgang ten opzichte van eerdere modellen; GPT-4o scoorde ongeveer 15 maanden eerder slechts 13,7% op een vergelijkbare metriek, wat aangeeft dat de prestaties van GPT-5 bijna verdrievoudigd zijn.
De ontwikkeling van GDPval is een reactie op de groeiende behoefte aan concrete metingen van AI's economische impact, in plaats van te vertrouwen op speculatie of academische benchmarks. Wetenschappers zoals Daron Acemoglu van MIT suggereren dat de economische voordelen van AI, hoewel aanzienlijk, mogelijk minder revolutionair zullen zijn dan sommigen voorspellen, met een geschatte BBP-groei van 0,7% tot 1,8% over de komende tien jaar. Echter, bredere economische projecties, zoals die van McKinsey, voorspellen dat AI tegen 2040 jaarlijks tot wel $23 biljoen aan economische waarde kan genereren. Dit benadrukt het belang van benchmarks zoals GDPval om de werkelijke bijdrage van AI te meten.
Naast prestaties, zijn de kosten van AI-modellen een cruciale factor voor adoptie. GPT-5 API-aanroepen zijn aanzienlijk goedkoper dan die van Claude Opus 4.1, met respectievelijk $1,25 per miljoen invoertokens en $10 per miljoen uitvoertokens voor GPT-5, vergeleken met $15 en $75 voor Claude Opus 4.1. Deze kosteneffectiviteit, gecombineerd met de prestatieverbeteringen, positioneert GPT-5 als een aantrekkelijke optie voor brede implementatie.
OpenAI erkent dat de huidige GDPval-test, die zich voornamelijk richt op rapportgeneratie, niet de volledige reikwijdte van professionele taken omvat. Toekomstige iteraties zullen uitgebreider zijn en meer interactieve workflows omvatten, om zo een completer beeld te geven van AI's potentieel. De introductie van GDPval is een belangrijke stap in het objectief evalueren van AI's economische bijdrage en het sturen van toekomstige ontwikkelingen in de sector.