OpenAI stellt GDPval vor: Ein neuer Maßstab für die wirtschaftliche Leistung von KI

Bearbeitet von: Veronika Radoslavskaya

OpenAI hat am 25. September 2025 den GDPval-Benchmark eingeführt, ein neues Bewertungsformat, das die wirtschaftliche Wertschöpfung von KI-Modellen quantifizieren soll. Der Benchmark konzentriert sich auf neun Schlüsselindustrien, die zum US-Bruttoinlandsprodukt (BIP) beitragen, und bewertet 44 verschiedene Berufe, darunter Softwareentwickler, Krankenschwestern und Journalisten.

In ersten Tests wurden KI-generierte Berichte mit menschlicher Arbeit verglichen. Das GPT-5-Modell wurde in 40,6 % der Fälle als überlegen oder gleichwertig mit menschlichen Experten eingestuft. Anthropic's Claude Opus 4.1 übertraf GPT-5 mit einer Nicht-Unterlegenheits-Rate von 49 % in bestimmten Metriken, wobei OpenAI anmerkte, dass Claude Opus 4.1 teilweise aufgrund ästhetisch ansprechenderer Grafiken höher bewertet wurde.

Aaron Chatterji, Chefökonom bei OpenAI, betonte, dass KI-Modelle Fachleuten helfen können, Zeit zu sparen und sich auf bedeutungsvollere Aufgaben zu konzentrieren. Die Leistung von GPT-5 hat sich im Vergleich zum GPT-4o-Modell, das etwa 15 Monate zuvor eine Bewertung von nur 13,7 % erreichte, fast verdreifacht. OpenAI plant, zukünftige Iterationen von GDPval zu verbessern, um ein umfassenderes Bild der KI-Fähigkeiten zu zeichnen und interaktivere Arbeitsabläufe einzubeziehen.

Die Kosten für API-Aufrufe sind ebenfalls ein wichtiger Faktor. GPT-5 ist mit 1,25 USD pro Million Eingabe-Tokens und 10 USD pro Million Ausgabe-Tokens deutlich kostengünstiger als Claude Opus 4.1, das 15 USD bzw. 75 USD pro Million Tokens kostet. Diese Kosteneffizienz, gepaart mit der Leistungssteigerung, positioniert GPT-5 als eine attraktive Option für die breite Anwendung in verschiedenen Branchen.

Quellen

  • 新浪财经

  • OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现

  • How GPT-5 compares to Claude Opus 4.1

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.

OpenAI stellt GDPval vor: Ein neuer Maßsta... | Gaya One