GPT-5.2思维模型在日本2026年高考测试中获近乎满分,凸显AI能力飞跃

编辑者: Veronika Radoslavskaya

2026年1月17日至18日,日本举行了大学入学共通测试。随后,《日本经济新闻》与日本人工智能初创企业LifePrompt联合进行的一项实验披露了尖端人工智能模型在严苛学术环境下的表现。OpenAI的最新模型GPT-5.2 Thinking在该项测试中表现突出,在涵盖15个主要科目的综合评估中,获得了96.9分的总分,并在其中九个科目中取得满分。该结果于2026年1月20日公布,标志着人工智能在模拟高风险、高标准的智力测试中迈出了关键一步。

此次联合实验不仅检验了OpenAI的模型,谷歌的Gemini 3.0 Pro也参与其中,获得了91.4的整体得分,反映出主要科技巨头在大型语言模型领域的竞争态势。与这些AI的优异表现形成对比的是,根据预估,2026年人类考生的平均分仅为58.1分,这表明在特定认知任务上,人工智能已超越平均人类水平。值得注意的是,OpenAI的模型平均分从2024年的66分跃升至2025年的91分,这种逐年显著的进步速度,引发了对未来教育和知识评估体系的深刻反思。

分析结果揭示了当前AI在不同知识领域的性能差异。研究团队观察到,GPT-5.2 Thinking在数学、物理、化学和生物学等量化科目中展现出近乎完美的掌握度,这得益于这些领域相对结构化的逻辑和数据处理需求。然而,模型在需要处理复杂非结构化或空间推理的科目中暴露了短板,例如在涉及世界地图解释的题目上出现失误,这表明AI在识别不规则图形信息方面仍存在技术瓶颈。

日本的大学入学共通测试是一个复杂的评估体系,本次AI测试主要集中在考生选择最多的15个主要科目上。这种测试的严谨性,使其成为衡量AI通用智能水平的有效基准,正如历史上的To-Robo-kun项目(由日本国立信息学研究所推动)在2015年也曾以此为目标。与上海AI实验室开发的ATLAS平台(旨在测试AI的科学推理能力,其最高分模型准确率仅为43%)相比,共通测试的结构似乎更侧重于知识的再现和结构化推理。

AI在学术测试中取得的成绩,也引发了关于教育公平性和未来学习模式的讨论。有研究指出,过度依赖生成式AI工具可能导致人类思考能力的下降。这种现象与本次AI在量化科目上的高分形成一种张力:AI的效率提升,是否会以牺牲人类的深度思考能力为代价?LifePrompt作为参与此次实验的日本AI初创企业,其与《日本经济新闻》的合作,凸显了日本本土科技界对前沿AI技术的关注和整合能力。尽管GPT-5.2在许多基准测试中刷新了行业标准,但其在空间和人文领域的不足,提示着AI的通用人工智能之路仍需在多模态和复杂情境理解上持续攻坚。

此次测试结果,无疑为教育界、科技界乃至社会结构,都投下了一枚需要审慎解读的信号弹。

3 查看

来源

  • AGERPRES

  • China.org.cn

  • Xinhua

  • Nippon.com

  • OfficeChai

  • EvoLink.AI

你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。