OpenAI stellt GDPval vor: Ein neuer Maßstab für die wirtschaftliche Leistung von KI
Bearbeitet von: Veronika Radoslavskaya
OpenAI hat am 25. September 2025 den GDPval-Benchmark eingeführt, ein neues Bewertungsformat, das die wirtschaftliche Wertschöpfung von KI-Modellen quantifizieren soll. Der Benchmark konzentriert sich auf neun Schlüsselindustrien, die zum US-Bruttoinlandsprodukt (BIP) beitragen, und bewertet 44 verschiedene Berufe, darunter Softwareentwickler, Krankenschwestern und Journalisten.
In ersten Tests wurden KI-generierte Berichte mit menschlicher Arbeit verglichen. Das GPT-5-Modell wurde in 40,6 % der Fälle als überlegen oder gleichwertig mit menschlichen Experten eingestuft. Anthropic's Claude Opus 4.1 übertraf GPT-5 mit einer Nicht-Unterlegenheits-Rate von 49 % in bestimmten Metriken, wobei OpenAI anmerkte, dass Claude Opus 4.1 teilweise aufgrund ästhetisch ansprechenderer Grafiken höher bewertet wurde.
Aaron Chatterji, Chefökonom bei OpenAI, betonte, dass KI-Modelle Fachleuten helfen können, Zeit zu sparen und sich auf bedeutungsvollere Aufgaben zu konzentrieren. Die Leistung von GPT-5 hat sich im Vergleich zum GPT-4o-Modell, das etwa 15 Monate zuvor eine Bewertung von nur 13,7 % erreichte, fast verdreifacht. OpenAI plant, zukünftige Iterationen von GDPval zu verbessern, um ein umfassenderes Bild der KI-Fähigkeiten zu zeichnen und interaktivere Arbeitsabläufe einzubeziehen.
Die Kosten für API-Aufrufe sind ebenfalls ein wichtiger Faktor. GPT-5 ist mit 1,25 USD pro Million Eingabe-Tokens und 10 USD pro Million Ausgabe-Tokens deutlich kostengünstiger als Claude Opus 4.1, das 15 USD bzw. 75 USD pro Million Tokens kostet. Diese Kosteneffizienz, gepaart mit der Leistungssteigerung, positioniert GPT-5 als eine attraktive Option für die breite Anwendung in verschiedenen Branchen.
Quellen
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
Weitere Nachrichten zu diesem Thema lesen:
Googles Gemini integriert SynthID und C2PA zur Demokratisierung der KI-Herkunftsnachverfolgung
Alibaba stürmt mit Quark AI-Brillen in den Smart-Glasses-Markt und setzt auf ganztägige Akkulaufzeit
Perplexity führt Gedächtnisfunktion für KI-Assistenten ein und personalisiert den Kontext über Modellgrenzen hinweg
Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?
Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.
