OpenAI发布GDPval基准测试,量化人工智能的经济影响

编辑者: Veronika Radoslavskaya

人工智能研究公司OpenAI于2025年9月25日推出一项名为GDPval的全新基准测试,旨在量化人工智能模型在创造经济价值方面的实际表现。该测试标志着人工智能评估进入新阶段,将焦点从理论能力转向可衡量的商业应用和经济贡献。

GDPval基准测试覆盖了医疗、金融、制造业和政府等九大主要行业,并深入到软件工程师、护士、记者等44个不同职业领域。测试方式邀请各行业专家评估AI生成的报告与人类专家的工作成果,并选出更优的输出。初步结果显示,OpenAI的GPT-5模型在40.6%的案例中被评为与行业专家相当或更优,而Anthropic的Claude Opus 4.1模型在49%的任务中表现出不逊于人类专家的水平,略微领先于GPT-5。OpenAI解释称,Claude Opus 4.1的更高评分部分归因于其生成图表时更具美学吸引力,而非纯粹性能上的绝对优势。尽管如此,GPT-5的表现相较于15个月前的GPT-4o模型已实现了近三倍的提升。

在成本效益方面,GPT-5的API调用费用显示出优势,每百万输入token为1.25美元,输出token为10美元,而Claude Opus 4.1的相应费用分别为15美元和75美元。微软CEO萨提亚·纳德拉强调,衡量AI成功的最终标准应是其对全球GDP增长的实际贡献。麦肯锡公司预测,生成式AI每年可能为全球经济带来2.6万亿至4.4万亿美元的价值,并有望显著提升劳动生产率。高盛的研究也指出,AI可能使劳动生产率提高15%,并对就业产生结构性影响。

当前的GDPval测试仍侧重于报告生成等特定任务,OpenAI承认这未能完全涵盖多数职业的全部工作内容,并计划未来开发更全面的测试。企业需要积极适应这一变革浪潮,构建自身能力以驾驭AI的强大力量,并为员工提供必要的技能培训。AI的广泛应用预示着销售、营销和软件开发等多个职能领域的颠覆性变革。

GDPval的推出为量化AI的经济价值提供了一个更具现实意义的框架,促使人们思考如何更有效地评估和利用这项技术,关注AI如何能够真正地提升人类的工作效率和创造力,使专业人士能够将更多精力投入到更具意义和战略性的工作中,从而推动整体社会的进步与发展。

来源

  • 新浪财经

  • OpenAI发布GDPval基准测试,评估AI模型在经济价值工作中的表现

  • How GPT-5 compares to Claude Opus 4.1

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。