OpenAI於2025年9月25日宣布推出名為GDPval的全新基準測試,旨在評估人工智慧模型在創造經濟價值方面的表現。這項創新性的評估框架涵蓋了九個主要行業,並細分為44種不同的職業,例如軟體工程師、護士和記者等。GDPval的核心在於其真實世界的應用導向,著重於評估AI在實際工作中產生的經濟價值,而非傳統的學術性或抽象性基準測試。測試任務是根據擁有平均14年專業經驗的行業專家的實際工作成果所設計。透過讓主題專家將AI生成的報告與他們自己的工作進行比較,並選出更優異的成果,GDPval能夠更精確地衡量AI的實際效益。
初步的測試結果顯示,OpenAI自家的GPT-5模型在40.6%的案例中被評為優於或等於行業專家的表現。然而,來自Anthropic的Claude Opus 4.1模型在此次測試中表現更為突出,在49%的任務中被評為不劣於行業專家,略勝一籌。OpenAI解釋稱,Claude Opus 4.1的較高得分部分歸因於其生成圖表的視覺吸引力,而非純粹的效能優越性。儘管如此,GPT-5的表現相較於約15個月前發布的GPT-4o模型,在類似的評估中得分僅為13.7%,已近乎三倍的顯著提升,顯示出AI在專業任務處理能力上的快速進展。
除了效能之外,成本效益也是評估的關鍵因素。GPT-5的API調用成本為每百萬輸入token 1.25美元,每百萬輸出token 10美元;而Claude Opus 4.1的成本則為每百萬輸入token 15美元,每百萬輸出token 75美元,GPT-5在此方面更具競爭力。
OpenAI承認,目前的GDPval測試主要集中在報告生成,這並不能完全涵蓋許多職業的全部工作範疇。為此,公司計劃未來開發更全面的測試,納入更多行業和互動式工作流程,以更深入地評估AI模型在各行各業的潛力。這項基準測試的推出,標誌著AI評估從理論走向實踐的重要一步,為理解和衡量AI對經濟產生的實際影響提供了更為清晰的視角,並預示著AI將在未來的工作模式中扮演更為關鍵的角色,協助專業人士節省時間,專注於更具意義的工作。