OpenAI推出GDPval基準測試，評估AI經濟影響力

06:13, 26 九月

编辑者： Veronika Radoslavskaya

OpenAI於2025年9月25日宣布推出名為GDPval的全新基準測試，旨在評估人工智慧模型在創造經濟價值方面的表現。這項創新性的評估框架涵蓋了九個主要行業，並細分為44種不同的職業，例如軟體工程師、護士和記者等。GDPval的核心在於其真實世界的應用導向，著重於評估AI在實際工作中產生的經濟價值，而非傳統的學術性或抽象性基準測試。測試任務是根據擁有平均14年專業經驗的行業專家的實際工作成果所設計。透過讓主題專家將AI生成的報告與他們自己的工作進行比較，並選出更優異的成果，GDPval能夠更精確地衡量AI的實際效益。

初步的測試結果顯示，OpenAI自家的GPT-5模型在40.6%的案例中被評為優於或等於行業專家的表現。然而，來自Anthropic的Claude Opus 4.1模型在此次測試中表現更為突出，在49%的任務中被評為不劣於行業專家，略勝一籌。OpenAI解釋稱，Claude Opus 4.1的較高得分部分歸因於其生成圖表的視覺吸引力，而非純粹的效能優越性。儘管如此，GPT-5的表現相較於約15個月前發布的GPT-4o模型，在類似的評估中得分僅為13.7%，已近乎三倍的顯著提升，顯示出AI在專業任務處理能力上的快速進展。

除了效能之外，成本效益也是評估的關鍵因素。GPT-5的API調用成本為每百萬輸入token 1.25美元，每百萬輸出token 10美元；而Claude Opus 4.1的成本則為每百萬輸入token 15美元，每百萬輸出token 75美元，GPT-5在此方面更具競爭力。

OpenAI承認，目前的GDPval測試主要集中在報告生成，這並不能完全涵蓋許多職業的全部工作範疇。為此，公司計劃未來開發更全面的測試，納入更多行業和互動式工作流程，以更深入地評估AI模型在各行各業的潛力。這項基準測試的推出，標誌著AI評估從理論走向實踐的重要一步，為理解和衡量AI對經濟產生的實際影響提供了更為清晰的視角，並預示著AI將在未來的工作模式中扮演更為關鍵的角色，協助專業人士節省時間，專注於更具意義的工作。

來源

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

閱讀更多有關此主題的新聞：

02 十月

Google 推出 Jules Tools CLI 與 API，強化 AI 程式碼代理整合

30 九月

OpenAI 推出 Sora 2：iOS 平台先進 AI 影音生成應用程式現已開放

29 九月

Anthropic 發布 Claude Sonnet 4.5，大幅提升程式碼編寫與推理能力

发现错误或不准确的地方吗？

我们会尽快处理您的评论。

通知中心

通知中心

OpenAI推出GDPval基準測試，評估AI經濟影響力

來源

閱讀更多有關此主題的新聞：