On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAIが発表した「GDPval」:AIの経済的価値を測る新たな指標
編集者: Veronika Radoslavskaya
OpenAIは2025年9月25日、人工知能(AI)モデルが様々な産業や職業で生み出す経済的価値を測定するために設計された新しいベンチマーク「GDPval」を発表しました。このベンチマークは、AIの理論的な能力を超え、実社会における経済的影響を評価することを目的としています。GDPvalは、米国の国内総生産(GDP)に貢献する9つの主要分野と、ソフトウェアエンジニアから医療従事者、ジャーナリストに至る44の専門職を対象としています。
初期評価では、GPT-5モデルは評価されたケースの40.6%で人間の専門家と同等またはそれ以上と判断されました。これは、約15ヶ月前の前モデルGPT-4oの13.7%という成功率から約3倍の性能向上を示しています。しかし、AnthropicのClaude Opus 4.1はGPT-5をわずかに上回り、49%のタスクで劣らないと評価されました。OpenAIは、Claudeのスコアにはコアタスクのパフォーマンスだけでなく、より視覚的に魅力的なチャート生成も含まれていると指摘しています。
GDPvalベンチマークは、抽象的な問題解決能力だけでなく、具体的な経済的影響を持つタスクにおけるAIの能力をより現実的に理解することを目指しています。これは、MicrosoftのCEOであるサティア・ナデラ氏が強調するように、AIの最終的な成功はベンチマークスコアだけでなく、実質的なGDP成長と企業拡大への貢献によって測られるべきだという業界全体の考え方とも一致しています。歴史的に見ても、電力やコンピューターといった技術の普及には、社会や手続きの適応を含め、かなりの時間が必要であることが示されています。
性能指標に加え、費用対効果もAI導入の重要な要素です。GPT-5のAPIコール費用は、Claude Opus 4.1と比較して大幅に低く設定されています。GPT-5は入力トークンあたり125ドル、出力トークンあたり10ドルであるのに対し、Claude Opus 4.1は入力トークンあたり15ドル、出力トークンあたり75ドルです。この経済的優位性と性能向上を組み合わせることで、GPT-5は幅広い応用において魅力的な選択肢となります。
OpenAIは、レポート生成に焦点を当てた現在のGDPvalテストが初期段階であると認識しており、将来的にはより広範な産業とインタラクティブなワークフローを組み込んだ評価を実施する予定です。GDPvalから得られる洞察は、AIの進化する経済的貢献について、ビジネス、政策立案者、消費者に情報を提供し、ヘルスケア、金融、製造業などの分野でAIの変革力をより明確に理解することを促進すると期待されています。AIの経済への影響については、ダロン・アセモグル教授のような専門家は、今後10年間でGDPに「控えめながらも着実な」影響を与えると予測しており、これは一部の楽観的な予測よりも保守的ですが、技術が社会に浸透するには時間がかかるという歴史的な教訓を反映しています。AIの導入には、スキルギャップや既存システムとの統合といった課題も伴いますが、GDPvalのような指標は、AIが実社会でどのように価値を生み出すかを具体的に示すための重要な一歩となります。
ソース元
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
このトピックに関するさらに多くのニュースを読む:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


