On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAI推出GDPval基準測試,評估AI經濟影響力
编辑者: Veronika Radoslavskaya
OpenAI於2025年9月25日宣布推出名為GDPval的全新基準測試,旨在評估人工智慧模型在創造經濟價值方面的表現。這項創新性的評估框架涵蓋了九個主要行業,並細分為44種不同的職業,例如軟體工程師、護士和記者等。GDPval的核心在於其真實世界的應用導向,著重於評估AI在實際工作中產生的經濟價值,而非傳統的學術性或抽象性基準測試。測試任務是根據擁有平均14年專業經驗的行業專家的實際工作成果所設計。透過讓主題專家將AI生成的報告與他們自己的工作進行比較,並選出更優異的成果,GDPval能夠更精確地衡量AI的實際效益。
初步的測試結果顯示,OpenAI自家的GPT-5模型在40.6%的案例中被評為優於或等於行業專家的表現。然而,來自Anthropic的Claude Opus 4.1模型在此次測試中表現更為突出,在49%的任務中被評為不劣於行業專家,略勝一籌。OpenAI解釋稱,Claude Opus 4.1的較高得分部分歸因於其生成圖表的視覺吸引力,而非純粹的效能優越性。儘管如此,GPT-5的表現相較於約15個月前發布的GPT-4o模型,在類似的評估中得分僅為13.7%,已近乎三倍的顯著提升,顯示出AI在專業任務處理能力上的快速進展。
除了效能之外,成本效益也是評估的關鍵因素。GPT-5的API調用成本為每百萬輸入token 1.25美元,每百萬輸出token 10美元;而Claude Opus 4.1的成本則為每百萬輸入token 15美元,每百萬輸出token 75美元,GPT-5在此方面更具競爭力。
OpenAI承認,目前的GDPval測試主要集中在報告生成,這並不能完全涵蓋許多職業的全部工作範疇。為此,公司計劃未來開發更全面的測試,納入更多行業和互動式工作流程,以更深入地評估AI模型在各行各業的潛力。這項基準測試的推出,標誌著AI評估從理論走向實踐的重要一步,為理解和衡量AI對經濟產生的實際影響提供了更為清晰的視角,並預示著AI將在未來的工作模式中扮演更為關鍵的角色,協助專業人士節省時間,專注於更具意義的工作。
來源
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
閱讀更多有關此主題的新聞:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


