OpenAI stellt GDPval vor: Ein neuer Maßstab für die wirtschaftliche Leistung von KI

06:13, 26 September

Bearbeitet von: Veronika Radoslavskaya

On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier

4:24 PM · Sep 25, 2025

638

Read 13 replies

Watch on X

OpenAI hat am 25. September 2025 den GDPval-Benchmark eingeführt, ein neues Bewertungsformat, das die wirtschaftliche Wertschöpfung von KI-Modellen quantifizieren soll. Der Benchmark konzentriert sich auf neun Schlüsselindustrien, die zum US-Bruttoinlandsprodukt (BIP) beitragen, und bewertet 44 verschiedene Berufe, darunter Softwareentwickler, Krankenschwestern und Journalisten.

In ersten Tests wurden KI-generierte Berichte mit menschlicher Arbeit verglichen. Das GPT-5-Modell wurde in 40,6 % der Fälle als überlegen oder gleichwertig mit menschlichen Experten eingestuft. Anthropic's Claude Opus 4.1 übertraf GPT-5 mit einer Nicht-Unterlegenheits-Rate von 49 % in bestimmten Metriken, wobei OpenAI anmerkte, dass Claude Opus 4.1 teilweise aufgrund ästhetisch ansprechenderer Grafiken höher bewertet wurde.

Aaron Chatterji, Chefökonom bei OpenAI, betonte, dass KI-Modelle Fachleuten helfen können, Zeit zu sparen und sich auf bedeutungsvollere Aufgaben zu konzentrieren. Die Leistung von GPT-5 hat sich im Vergleich zum GPT-4o-Modell, das etwa 15 Monate zuvor eine Bewertung von nur 13,7 % erreichte, fast verdreifacht. OpenAI plant, zukünftige Iterationen von GDPval zu verbessern, um ein umfassenderes Bild der KI-Fähigkeiten zu zeichnen und interaktivere Arbeitsabläufe einzubeziehen.

Die Kosten für API-Aufrufe sind ebenfalls ein wichtiger Faktor. GPT-5 ist mit 1,25 USD pro Million Eingabe-Tokens und 10 USD pro Million Ausgabe-Tokens deutlich kostengünstiger als Claude Opus 4.1, das 15 USD bzw. 75 USD pro Million Tokens kostet. Diese Kosteneffizienz, gepaart mit der Leistungssteigerung, positioniert GPT-5 als eine attraktive Option für die breite Anwendung in verschiedenen Branchen.

46 Ansichten

Quellen

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

Weitere Nachrichten zu diesem Thema lesen:

Google

@Google

·Follow

Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.

Watch on X

4:02 PM · Feb 26, 2026

6.8K

Read 463 replies

Watch on X

27 Februar

Google enthüllt „Nano Banana 2“: Die nächste Evolutionsstufe der Gemini-Bildgenerierung

26 Februar

Perplexity präsentiert „Computer“: Eine neue Ära autonomer digitaler Arbeitsplattformen

26 Februar

Anthropic führt 10 neue Enterprise-Plug-ins ein: Claude wird zum zentralen Werkzeug für Unternehmensabläufe

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.