On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAI stellt GDPval vor: Ein neuer Maßstab für die wirtschaftliche Leistung von KI
Bearbeitet von: Veronika Radoslavskaya
OpenAI hat am 25. September 2025 den GDPval-Benchmark eingeführt, ein neues Bewertungsformat, das die wirtschaftliche Wertschöpfung von KI-Modellen quantifizieren soll. Der Benchmark konzentriert sich auf neun Schlüsselindustrien, die zum US-Bruttoinlandsprodukt (BIP) beitragen, und bewertet 44 verschiedene Berufe, darunter Softwareentwickler, Krankenschwestern und Journalisten.
In ersten Tests wurden KI-generierte Berichte mit menschlicher Arbeit verglichen. Das GPT-5-Modell wurde in 40,6 % der Fälle als überlegen oder gleichwertig mit menschlichen Experten eingestuft. Anthropic's Claude Opus 4.1 übertraf GPT-5 mit einer Nicht-Unterlegenheits-Rate von 49 % in bestimmten Metriken, wobei OpenAI anmerkte, dass Claude Opus 4.1 teilweise aufgrund ästhetisch ansprechenderer Grafiken höher bewertet wurde.
Aaron Chatterji, Chefökonom bei OpenAI, betonte, dass KI-Modelle Fachleuten helfen können, Zeit zu sparen und sich auf bedeutungsvollere Aufgaben zu konzentrieren. Die Leistung von GPT-5 hat sich im Vergleich zum GPT-4o-Modell, das etwa 15 Monate zuvor eine Bewertung von nur 13,7 % erreichte, fast verdreifacht. OpenAI plant, zukünftige Iterationen von GDPval zu verbessern, um ein umfassenderes Bild der KI-Fähigkeiten zu zeichnen und interaktivere Arbeitsabläufe einzubeziehen.
Die Kosten für API-Aufrufe sind ebenfalls ein wichtiger Faktor. GPT-5 ist mit 1,25 USD pro Million Eingabe-Tokens und 10 USD pro Million Ausgabe-Tokens deutlich kostengünstiger als Claude Opus 4.1, das 15 USD bzw. 75 USD pro Million Tokens kostet. Diese Kosteneffizienz, gepaart mit der Leistungssteigerung, positioniert GPT-5 als eine attraktive Option für die breite Anwendung in verschiedenen Branchen.
Quellen
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
Weitere Nachrichten zu diesem Thema lesen:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


