谷歌发布 Gemini 3，开启“深度思考”与自主智能体时代

18:50, 18 十一月

作者： Veronika Radoslavskaya

Google 推出 Gemini 3

在生成式人工智能浪潮兴起两年之际，谷歌正式发布了 Gemini 3 模型。该模型宣称将彻底改变现有格局，从仅能预测文本的聊天机器人，升级为具备推理、规划和执行能力的 AI 智能体。此次发布主要包含两个层级：Gemini 3 Pro 已立即上线，而功能更强大的 Gemini 3 深度思考 模式，则旨在通过在回应前进行“思考”来解决复杂的难题。

这一代模型的突出特点在于对“机械推理”能力的强调。立即推出的 Gemini 3 Pro 展示了顶尖的推理水平，在难度极高的 GPQA Diamond 基准测试中取得了 91.9% 的成绩，并在不使用工具的情况下，在 人类终极考试 (HLE) 中达到了 37.5% 的分数。这项能力使得模型能够以高度的可靠性，深入理解科学和数学领域的深度和细微差别。

针对 Ultra 订阅用户即将开放的全新 深度思考模式，将这些能力推向了新的高度。该模式专为解决最复杂、最具创新性的问题而设计，在严格测试 AI 解决从未见过逻辑谜题能力的 ARC-AGI-2 测试中，获得了 45.1% 的高分，同时在 HLE 中也达到了 41.0%。这种增强模式旨在实现真正的难题解决，超越了标准的检索和信息合成。

对于开发者社区而言，此次发布还伴随着一个名为 Google Antigravity 的全新平台。这个“智能体优先”的开发环境允许软件工程师与 AI 智能体并肩工作，这些智能体可以直接访问终端、浏览器和代码编辑器。它们不再仅仅是自动补全一行代码，而是能够自主规划、执行并验证复杂的软件任务。谷歌将此描述为实现“意念编程”的终极工具——在这种编程风格中，开发者只需专注于高层次的创意意图，而具体的实施细节则由 AI 全权负责。

在消费者应用方面，Gemini 3 充分利用了其 多模态 能力以及高达 100 万个 token 的上下文窗口。这使其能够处理海量数据，相当于超过 1,500 页 的文本或完整的视频讲座。得益于此，它可以充当个性化教练：例如，模型可以分析用户打 匹克球 的视频，识别出其姿势中的具体缺陷，并生成定制化的训练计划。对于学生来说，它可以摄取学术论文或冗长的视频教程，并生成交互式的学习辅助工具，如 抽认卡 或 可视化图表，帮助他们掌握材料。它甚至可以解读手写的食谱并将其转换为数字格式。

谷歌还声称在排行榜上占据了主导地位。Gemini 3 Pro 已经在 LMArena 上占据了榜首位置，这是一个用户盲测 AI 模型并进行评分的众包基准测试网站，其 埃洛等级分 达到了 1501。该模型迅速登上榜首，延续了其前身 Gemini 2.5 Pro 的辉煌，后者曾长期占据这一竞争激烈的排名。

目前，该模型正在谷歌的生态系统中逐步推广，包括 Gemini 应用程序、Vertex AI，以及谷歌搜索中新增的“AI 模式”，后者能够即时生成交互式模拟。尽管“深度思考模式”仍在进行最终的安全检查，但核心的 Gemini 3 Pro 模型已于今日上线，这标志着谷歌已准备好将“智能体化”的 AI 交付给数百万用户手中。

Gemini

Google DeepMind

Generative AI

Large Language Models (LLMs)

Deep Think

通知中心

通知中心

谷歌发布 Gemini 3，开启“深度思考”与自主智能体时代

阅读更多关于该主题的新闻：