OpenAI、プロフェッショナルワークフロー向け三層アーキテクチャ搭載「GPT-5.2」を発表
作者: Veronika Radoslavskaya
OpenAIは2025年12月11日、GPT-5.2の正式リリースを発表しました。この新モデルシリーズは、専門的な知識労働と自律型エージェントの応用を念頭に置いた三種類のバリアントで構成されています。同社は今回の発表を、スプレッドシート生成、プレゼンテーション作成、コーディング、画像処理、そして長文コンテキスト推論において、測定可能な進歩を遂げた、これまでにない最も高性能なモデル群であると位置づけています。
専門特化型三つのバリアント
GPT-5.2のラインナップは、インスタント(Instant)、シンキング(Thinking)、プロ(Pro)の三つの構成に分かれており、それぞれ異なる複雑性レベルとユースケースに合わせて最適化されています。インスタントは、情報検索、文章作成、翻訳といった日常的な問い合わせに対して速度を最優先します。一方、シンキングは、コーディング、長文分析、数学、計画立案など、構造化された複雑な作業で真価を発揮します。そして、プロは最高レベルの精度と信頼性が求められる難問に対応するため、最も高い能力を備えた最上位層として提供されます。
ベンチマークでの驚異的な成果
GPT-5.2 シンキングは、AIME 2025年数学競技会において100%の正答率を達成し、新たなベンチマーク記録を樹立しました。また、44の職種にわたる知識労働を評価するGDPvalテストでは、業界の専門家との直接比較において70.9%のケースで勝利または引き分けを記録。これにより、OpenAIのモデルが経済的に価値のあるタスクで専門家レベルのパフォーマンスに到達したのは今回が初めてとなります。
OpenAI独自のベンチマークチャート上でも、GPT-5.2 シンキングは、SWE-Bench ProからGPQA Diamond、ARC-AGIスイートに至るまで、リストされているほぼ全ての推論テストにおいて、GoogleのGemini 3やAnthropicのClaude Opus 4.5を上回る結果を示しています。
ソフトウェアエンジニアリング分野での飛躍
複数のプログラミング言語を試す実世界のソフトウェアエンジニアリング評価であるSWE-Bench Proにおいて、GPT-5.2 シンキングは55.6%というスコアを記録し、前モデルのGPT-5.1の50.8%を明確に凌駕しました。さらに、SWE-bench Verifiedでは80%を達成しています。WindsurfやCharlieCodeといったコーディング系スタートアップからは、このモデルが最先端のエージェントコーディング性能と、複雑な多段階ワークフローにおける測定可能な向上が見られるとの報告が上がっています。
信頼性とコンテキスト処理能力の向上
GPT-5.2 シンキングの応答は、GPT-5.1と比較してエラー率が30%低減されており、日々の意思決定、研究、執筆作業における信頼性が向上しました。このモデルは数百Kトークンに及ぶコンテキストウィンドウをサポートし、複数ラウンドにわたる共参照解決タスクにおいてほぼ完璧な精度を誇ります。視覚処理能力も大幅に改善され、チャート解釈やソフトウェアインターフェース理解のベンチマークにおけるエラー率は約半分に減少しました。
競争激化の背景と戦略的動向
今回のリリースは、GoogleのGemini 3との競争が激化する中で行われました。Gemini 3は現在、コーディングを除くほとんどのベンチマークでLMArenaのリーダーボードの頂点に立っています。さらに今月上旬には、ChatGPTのトラフィック減少や消費者市場でのシェア喪失懸念を受け、CEOのサム・アルトマン氏が社内向けに「コードレッド」のメモを発したと報じられました。このメモでは、広告導入の公約延期など優先順位の変更が指示され、ChatGPT体験の改善に注力すべきだと強調されました。
提供体制と新たな安全対策
GPT-5.2は、有料のChatGPT加入者(Plus、Pro、Business、Enterprise)に向けて順次展開されており、API経由では三つのバリアント全てが即時利用可能です。OpenAIはまた、メンタルヘルス関連の使用やティーンエイジャー向けの年齢確認に関する新たな安全対策を発表しましたが、これらはローンチブリーフィングではさほど強調されませんでした。
23 ビュー
ソース元
OpenAI Blog
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。
