OpenAI 隆重推出 GPT-5.2 搭載三層架構,專為專業工作流程優化

作者: Veronika Radoslavskaya

OpenAI 於 2025 年 12 月 11 日正式發表了 GPT-5.2 模型系列。這次發布的最大亮點是引入了專為專業知識工作和自主代理應用而設計的三種變體模型系統。該公司宣稱,這是迄今為止能力最強大的模型系列,在試算表生成、簡報製作、程式編寫、視覺處理以及長文本上下文推理方面均展現出顯著的進步。

三大專業化模型配置

GPT-5.2 陣容涵蓋了 Instant(即時)、Thinking(思考)和 Pro(專業)三種配置,每一種都針對不同的複雜度和應用場景進行了最佳化。Instant 版本追求極致速度,適用於資訊檢索、基礎寫作和翻譯等例行性查詢。Thinking 版本則專注於處理複雜的結構化任務,例如程式碼編寫、長文件分析、數學運算和規劃。至於 Pro 版本,作為最高能力層級,旨在為最艱鉅的難題提供最高的準確性和可靠性。

基準測試的突破性表現

GPT-5.2 Thinking 在 2025 年 AIME(美國數學競賽)中達成了驚人的 100% 準確率,創下了新的基準紀錄。在 GDPval 評估中,該模型在涵蓋 44 種職業的知識工作對比中,與產業專業人士進行的直接比較裡,有高達 70.9% 的情況下取得勝利或平手。這標誌著 OpenAI 的模型首次在具有經濟價值的任務上達到專家級水準。根據 OpenAI 自身的基準圖表顯示,在 SWE-Bench Pro、GPQA Diamond 和 ARC-AGI 等幾乎所有列出的推理測試中,GPT-5.2 Thinking 的表現均超越了 Google 的 Gemini 3 和 Anthropic 的 Claude Opus 4.5。

程式設計與軟體工程的飛躍

在 SWE-Bench Pro 這項測試真實世界軟體工程、涉及多種程式語言的評估中,GPT-5.2 Thinking 取得了 55.6% 的成績,優於 GPT-5.1 的 50.8%。此外,該模型在 SWE-bench Verified 測試中也達到了 80% 的高分。諸如 Windsurf 和 CharlieCode 等新創編碼公司回報稱,他們觀察到了代理程式編碼性能達到業界頂尖水準,並在複雜的多步驟工作流程中取得了實質性的效能提升。

可靠性與上下文處理能力的強化

與 GPT-5.1 相比,GPT-5.2 Thinking 的回應錯誤率降低了 30%,這使其在日常決策、研究和寫作任務中更值得信賴。該模型支援高達數十萬個 Token 的上下文視窗,並且在多輪指代消解任務上展現出近乎完美的準確性。視覺處理能力也獲得了實質性的提升,在圖表解讀和軟體介面理解的基準測試中,錯誤率約減少了一半。

競爭格局下的戰略考量

此次發布正值與 Google Gemini 3 競爭日益白熱化的時期,Gemini 3 目前在 LMArena 的大多數基準測試中(除了編碼領域)仍佔據領先地位。據悉,本月稍早,執行長 Sam Altman 曾向內部員工發布一份「紅色警戒」備忘錄,內容涉及 ChatGPT 流量下滑以及對失去消費者市場份額的擔憂。該備忘錄要求調整優先事項,包括暫緩引入廣告等承諾,轉而集中精力打造更優質的 ChatGPT 使用體驗。

產品的部署與安全措施

GPT-5.2 模型現正陸續向付費的 ChatGPT 訂閱用戶(包括 Plus、Pro、Business 和 Enterprise)開放,同時三種變體也已立即透過 API 供開發者使用。OpenAI 在發布會中也簡要提及了針對心理健康使用和青少年年齡驗證的新安全措施,儘管這些內容並未在發布會上被重點強調。

23 浏览量

來源

  • OpenAI Blog

发现错误或不准确的地方吗?

我们会尽快处理您的评论。