On GDPval, expert graders compared outputs from leading models to human expert work. Claude Opus 4.1 delivered the strongest results, with just under half of its outputs rated as good as or better than expert work. Just as striking is the pace of progress: OpenAI’s frontier
OpenAI发布GDPval基准测试,量化人工智能的经济影响
编辑者: Veronika Radoslavskaya
人工智能研究公司OpenAI于2025年9月25日推出一项名为GDPval的全新基准测试,旨在量化人工智能模型在创造经济价值方面的实际表现。该测试标志着人工智能评估进入新阶段,将焦点从理论能力转向可衡量的商业应用和经济贡献。
GDPval基准测试覆盖了医疗、金融、制造业和政府等九大主要行业,并深入到软件工程师、护士、记者等44个不同职业领域。测试方式邀请各行业专家评估AI生成的报告与人类专家的工作成果,并选出更优的输出。初步结果显示,OpenAI的GPT-5模型在40.6%的案例中被评为与行业专家相当或更优,而Anthropic的Claude Opus 4.1模型在49%的任务中表现出不逊于人类专家的水平,略微领先于GPT-5。OpenAI解释称,Claude Opus 4.1的更高评分部分归因于其生成图表时更具美学吸引力,而非纯粹性能上的绝对优势。尽管如此,GPT-5的表现相较于15个月前的GPT-4o模型已实现了近三倍的提升。
在成本效益方面,GPT-5的API调用费用显示出优势,每百万输入token为1.25美元,输出token为10美元,而Claude Opus 4.1的相应费用分别为15美元和75美元。微软CEO萨提亚·纳德拉强调,衡量AI成功的最终标准应是其对全球GDP增长的实际贡献。麦肯锡公司预测,生成式AI每年可能为全球经济带来2.6万亿至4.4万亿美元的价值,并有望显著提升劳动生产率。高盛的研究也指出,AI可能使劳动生产率提高15%,并对就业产生结构性影响。
当前的GDPval测试仍侧重于报告生成等特定任务,OpenAI承认这未能完全涵盖多数职业的全部工作内容,并计划未来开发更全面的测试。企业需要积极适应这一变革浪潮,构建自身能力以驾驭AI的强大力量,并为员工提供必要的技能培训。AI的广泛应用预示着销售、营销和软件开发等多个职能领域的颠覆性变革。
GDPval的推出为量化AI的经济价值提供了一个更具现实意义的框架,促使人们思考如何更有效地评估和利用这项技术,关注AI如何能够真正地提升人类的工作效率和创造力,使专业人士能够将更多精力投入到更具意义和战略性的工作中,从而推动整体社会的进步与发展。
来源
新浪财经
OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1
阅读更多关于该主题的新闻:
Introducing Nano Banana 2: Our best image generation and editing model yet. 🍌 Pro-level quality, at Flash speed. Rolling out today across @GeminiApp, Search, and our developer and creativity tools.


