GPT-5.2 Thinking、2026年共通テストで人間平均を大幅に上回る96.9点を記録
編集者: Veronika Radoslavskaya
2026年1月17日から18日にかけて実施された日本の大学入学共通テストにおいて、OpenAIのGPT-5.2 Thinkingモデルがその能力を試され、総合得点率96.9パーセントを達成した。この共同実験は、日本経済新聞社と日本のAIスタートアップであるLifePromptが連携して実施したものであり、主要15科目中9科目で満点を獲得した。この結果は2026年1月20日に報じられ、AIの学術的試験における進歩の速度を明確に示している。
実験にはOpenAIのモデルのほか、GoogleのGemini 3.0 Proも参加し、こちらは総合得点率91.4パーセントを記録した。これらのAI群のパフォーマンスは、同年の人間による平均推定得点58.1パーセントを大きく凌駕する水準である。特筆すべきは、OpenAIのモデルのスコアが2024年の66パーセントから2025年には91パーセントへと急進した点であり、この年次的な飛躍はAI技術の急速な成熟を裏付けている。今回の検証では、大学入学共通テストで設定されている7分野21科目のうち、主要な15科目が評価対象となった。
詳細な分析によれば、AIモデルは数学、物理学、化学、生物学といった定量的・科学的科目に極めて高い適性を示した。一方で、世界地図の解釈など、複雑で不規則な図形情報の認識を要する人文学や空間推論の分野では、限定的ながらも誤りが確認された。この結果は、構造化されたデータや論理的推論に強いAIが、微妙な視覚的解釈や広範な文脈理解が求められる領域には現時点での課題を残していることを示唆している。
このようなベンチマークテストへのAIの挑戦は歴史的な文脈を持つ。例えば、国立情報学研究所が主導した「東ロボくん」プロジェクトは2015年に平均偏差値57.1を記録し、当時のAIの知的能力の限界を探る試みであった。今回のGPT-5.2 Thinkingのスコアは、その当時の水準から見て、学術的知能の領域においてAIが到達した新たな高みを明確に示している。
この実験結果は、単にAIの優劣を競う以上の、教育システム全体への深い示唆を含んでいる。正解が存在する問題を効率的に処理する能力と、不確実な状況下で新しい価値を創造する人間的な能力との間に、明確な境界線が存在することが改めて認識される。LifePromptは過去にも東大入試へのAI挑戦といった企画を実施しており、学術評価のあり方そのものに問いを投げかけている。今後は、教育機関や社会全体が、AIが代替し得る「知識伝達」から、AIには代替不可能な「人間的成長の支援」へと役割をシフトさせる必要性が高まっている。
3 ビュー
ソース元
AGERPRES
China.org.cn
Xinhua
Nippon.com
OfficeChai
EvoLink.AI
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?できるだけ早くコメントを考慮します。
