GPT-5.2於2026年日本大學入學試中獲近乎滿分,凸顯AI學術能力飛速進展
编辑者: Veronika Radoslavskaya
2026年1月20日,日本經濟新聞與日本人工智慧新創公司LifePrompt聯合公布一項實驗結果,標誌著先進AI模型在嚴謹學術評估領域取得重要進展。該測試針對2026年日本大學入學共通考試的15門主要科目,納入了包括OpenAI的GPT-5.2 Thinking和Google的Gemini 3.0 Pro在內的最先進模型進行應答。
OpenAI的GPT-5.2 Thinking模型在此次測試中,總體成績達到96.9分,並在全部15個科目中的九個科目獲得滿分,此表現顯著超越了同期人類考生的預期平均水準。此次測試的實際考試時間為1月17日至18日,結果於20日公布。數據顯示,預計2026年人類考生的15個熱門科目平均得分為58.1分,AI模型的表現呈現出明顯的超越趨勢。回顧歷史數據,OpenAI的模型在2024年的平均得分為66分,2025年躍升至91分,此次成績標誌著其在一年內實現了接近完美的突破。
在科目表現的細緻分析中,研究團隊觀察到AI模型在量化學科,如數學、物理、化學和生物學方面展現出卓越的解題能力,幾乎達到滿分水準。然而,在需要複雜空間推理或深入人文理解的學科中,模型則暴露出局限性,特別是在處理世界地圖的解釋性問題時出現了錯誤,這暗示了當前大型語言模型在識別高度不規則或複雜圖形資訊方面仍存在技術瓶頸。
與OpenAI的領先地位相比,Google的Gemini 3.0 Pro模型也展現了強勁實力,獲得了91.4分的總體平均分數,顯示出科技巨頭在AI能力競賽中的激烈角逐。GPT-5.2 Thinking在本次測試中的領先地位,特別是其在九個科目中取得的滿分,促使學術界和教育界對未來的評估標準和知識掌握的本質進行深刻反思。
此次實驗的聯合主辦方《日本經濟新聞》與LifePrompt,延續了日本在AI學術測試領域的探索傳統,可追溯至國家級的努力,例如國家情報學研究所(NII)的To-Robo-kun項目,該項目在2015年即以通過東京大學入學考試為目標。日本教育體系正經歷結構性轉變,旨在打破傳統的文理分科,以應對跨領域人才的需求,而AI在高考中的表現無疑為改革提供了新的參照點。
總體而言,GPT-5.2 Thinking在2026年日本大學入學共通測試中取得的成績,不僅是技術進步的量化體現,更是一個重要信號,預示著高度自動化的智力任務將對現有的教育體系、專業勞動市場乃至社會結構產生深遠影響,儘管在處理非結構化視覺資訊方面仍有待進一步優化。
3 浏览量
來源
AGERPRES
China.org.cn
Xinhua
Nippon.com
OfficeChai
EvoLink.AI
閱讀更多有關此主題的新聞:
发现错误或不准确的地方吗?我们会尽快处理您的评论。
