OpenAI发布GPT-5.2：采用三层架构赋能专业工作流程

20:38, 11 十二月

作者： Veronika Radoslavskaya

OpenAI

@OpenAI

·Follow

Replying to @OpenAI

GPT-5.2 Thinking evals

6:18 PM · Dec 11, 2025

3.8K

Read 341 replies

Watch on X

OpenAI于2025年12月11日正式推出了GPT-5.2，此版本引入了一个专为专业知识工作和自主智能体应用设计的“三变体”模型系统。该公司将此次发布定位为其迄今为止能力最强的模型系列，在电子表格生成、演示文稿制作、编程、视觉处理以及长文本上下文推理方面均实现了可衡量的显著进步。

Carl Vellotti 🥞

@carlvellotti

·Follow

Replying to @OpenAI

6:44 PM · Dec 11, 2025

三大专业化模型配置

GPT-5.2系列包含Instant（即时）、Thinking（思考）和Pro（专业）三种配置，每一种都针对不同的复杂程度和应用场景进行了优化。Instant模型侧重于速度，适用于信息检索、基础写作和翻译等日常查询任务。Thinking模型则在复杂的结构化工作上表现出色，例如编程、深度文档分析、数学运算和规划制定。而Pro版本作为最高能力层级，旨在为最具挑战性的难题提供极致的准确性和可靠性。

基准测试中的卓越表现

GPT-5.2 Thinking模型在2025年AIME（美国国际数学竞赛）中取得了100%的满分成绩，树立了新的行业标杆。在GDPval评估中，该模型在衡量跨越44个职业的知识工作表现时，与行业专业人士的直接比较中，有70.9%的场景取得了胜利或平局，这标志着OpenAI的模型首次在具有经济价值的任务上达到了专家级水平。在OpenAI的性能图表上，GPT-5.2 Thinking在几乎所有列出的推理测试中，包括SWE-Bench Pro、GPQA Diamond以及ARC-AGI套件，都超越了谷歌的Gemini 3和Anthropic的Claude Opus 4.5。

软件工程与代码能力飞跃

在涉及多种编程语言的真实世界软件工程评估SWE-Bench Pro上，GPT-5.2 Thinking的得分达到了55.6%，相较于GPT-5.1的50.8%有了显著提升。此外，该模型在SWE-bench Verified测试中也获得了80%的成绩。像Windsurf和CharlieCode这样的编程初创公司反馈称，他们在复杂的多步骤工作流程中观察到了顶尖的智能体编程性能和切实的效率提升。

可靠性与上下文处理能力的增强

与GPT-5.1相比，GPT-5.2 Thinking的回复错误率降低了30%，这使其在日常决策、研究和内容创作中更值得信赖。该模型支持扩展至数十万Token的上下文窗口，并且在多轮指代消解任务中展现出接近完美的准确性。视觉处理能力也得到了大幅改进，在图表解释和软件界面理解的基准测试中，错误率大约减少了一半。

竞争格局下的战略考量

此次发布正值与谷歌Gemini 3竞争日益激烈的背景下，Gemini 3目前在LMArena排行榜的大多数基准测试中（编码除外）位居榜首。据报道，本月早些时候，面对ChatGPT流量下滑以及对失去消费者市场份额的担忧，首席执行官Sam Altman向员工发布了一份内部“红色警报”备忘录。该备忘录要求调整战略重点，包括暂缓引入广告等承诺，转而集中精力打造更优越的ChatGPT用户体验。