谷歌发布 Gemini 3,开启“深度思考”与自主智能体时代

作者: Veronika Radoslavskaya

Google 推出 Gemini 3

在生成式人工智能浪潮兴起两年之际,谷歌正式发布了 Gemini 3 模型。该模型宣称将彻底改变现有格局,从仅能预测文本的聊天机器人,升级为具备推理、规划和执行能力的 AI 智能体。此次发布主要包含两个层级:Gemini 3 Pro 已立即上线,而功能更强大的 Gemini 3 深度思考 模式,则旨在通过在回应前进行“思考”来解决复杂的难题。

这一代模型的突出特点在于对“机械推理”能力的强调。立即推出的 Gemini 3 Pro 展示了顶尖的推理水平,在难度极高的 GPQA Diamond 基准测试中取得了 91.9% 的成绩,并在不使用工具的情况下,在 人类终极考试 (HLE) 中达到了 37.5% 的分数。这项能力使得模型能够以高度的可靠性,深入理解科学和数学领域的深度和细微差别。

针对 Ultra 订阅用户即将开放的全新 深度思考模式,将这些能力推向了新的高度。该模式专为解决最复杂、最具创新性的问题而设计,在严格测试 AI 解决从未见过逻辑谜题能力的 ARC-AGI-2 测试中,获得了 45.1% 的高分,同时在 HLE 中也达到了 41.0%。这种增强模式旨在实现真正的难题解决,超越了标准的检索和信息合成。

对于开发者社区而言,此次发布还伴随着一个名为 Google Antigravity 的全新平台。这个“智能体优先”的开发环境允许软件工程师与 AI 智能体并肩工作,这些智能体可以直接访问终端、浏览器和代码编辑器。它们不再仅仅是自动补全一行代码,而是能够自主规划、执行并验证复杂的软件任务。谷歌将此描述为实现“意念编程”的终极工具——在这种编程风格中,开发者只需专注于高层次的创意意图,而具体的实施细节则由 AI 全权负责。

在消费者应用方面,Gemini 3 充分利用了其 多模态 能力以及高达 100 万个 token 的上下文窗口。这使其能够处理海量数据,相当于超过 1,500 页 的文本或完整的视频讲座。得益于此,它可以充当个性化教练:例如,模型可以分析用户打 匹克球 的视频,识别出其姿势中的具体缺陷,并生成定制化的训练计划。对于学生来说,它可以摄取学术论文或冗长的视频教程,并生成交互式的学习辅助工具,如 抽认卡可视化图表,帮助他们掌握材料。它甚至可以解读手写的食谱并将其转换为数字格式。

谷歌还声称在排行榜上占据了主导地位。Gemini 3 Pro 已经在 LMArena 上占据了榜首位置,这是一个用户盲测 AI 模型并进行评分的众包基准测试网站,其 埃洛等级分 达到了 1501。该模型迅速登上榜首,延续了其前身 Gemini 2.5 Pro 的辉煌,后者曾长期占据这一竞争激烈的排名。

目前,该模型正在谷歌的生态系统中逐步推广,包括 Gemini 应用程序、Vertex AI,以及谷歌搜索中新增的“AI 模式”,后者能够即时生成交互式模拟。尽管“深度思考模式”仍在进行最终的安全检查,但核心的 Gemini 3 Pro 模型已于今日上线,这标志着谷歌已准备好将“智能体化”的 AI 交付给数百万用户手中。

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。