OpenAI发布GDPval基准测试，量化人工智能的经济影响

06:13, 26 九月

编辑者： Veronika Radoslavskaya

人工智能研究公司OpenAI于2025年9月25日推出一项名为GDPval的全新基准测试，旨在量化人工智能模型在创造经济价值方面的实际表现。该测试标志着人工智能评估进入新阶段，将焦点从理论能力转向可衡量的商业应用和经济贡献。

GDPval基准测试覆盖了医疗、金融、制造业和政府等九大主要行业，并深入到软件工程师、护士、记者等44个不同职业领域。测试方式邀请各行业专家评估AI生成的报告与人类专家的工作成果，并选出更优的输出。初步结果显示，OpenAI的GPT-5模型在40.6%的案例中被评为与行业专家相当或更优，而Anthropic的Claude Opus 4.1模型在49%的任务中表现出不逊于人类专家的水平，略微领先于GPT-5。OpenAI解释称，Claude Opus 4.1的更高评分部分归因于其生成图表时更具美学吸引力，而非纯粹性能上的绝对优势。尽管如此，GPT-5的表现相较于15个月前的GPT-4o模型已实现了近三倍的提升。

在成本效益方面，GPT-5的API调用费用显示出优势，每百万输入token为1.25美元，输出token为10美元，而Claude Opus 4.1的相应费用分别为15美元和75美元。微软CEO萨提亚·纳德拉强调，衡量AI成功的最终标准应是其对全球GDP增长的实际贡献。麦肯锡公司预测，生成式AI每年可能为全球经济带来2.6万亿至4.4万亿美元的价值，并有望显著提升劳动生产率。高盛的研究也指出，AI可能使劳动生产率提高15%，并对就业产生结构性影响。

当前的GDPval测试仍侧重于报告生成等特定任务，OpenAI承认这未能完全涵盖多数职业的全部工作内容，并计划未来开发更全面的测试。企业需要积极适应这一变革浪潮，构建自身能力以驾驭AI的强大力量，并为员工提供必要的技能培训。AI的广泛应用预示着销售、营销和软件开发等多个职能领域的颠覆性变革。

GDPval的推出为量化AI的经济价值提供了一个更具现实意义的框架，促使人们思考如何更有效地评估和利用这项技术，关注AI如何能够真正地提升人类的工作效率和创造力，使专业人士能够将更多精力投入到更具意义和战略性的工作中，从而推动整体社会的进步与发展。

来源

新浪财经
OpenAI发布GDPval基准测试，评估AI模型在经济价值工作中的表现
How GPT-5 compares to Claude Opus 4.1

通知中心

通知中心

OpenAI发布GDPval基准测试，量化人工智能的经济影响

来源

阅读更多关于该主题的新闻：