谷歌 DeepMind 发布 Gemini Robotics 1.5 和 ER 1.5,开启机器人自主新篇章

编辑者: Veronika Radoslavskaya

谷歌 DeepMind 于 2025 年 9 月 25 日发布了两款重磅 AI 模型:Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5。此次发布标志着机器人技术在自主性、适应性和推理能力方面取得了重大突破,预示着机器人将更深入地融入我们的日常生活。这些模型旨在提升机器人理解物理世界、规划复杂任务以及与人类协同工作的能力。

Gemini Robotics 1.5 是一款先进的视觉-语言-动作(VLA)模型,能够将视觉输入和用户指令转化为精确的运动指令。其核心优势在于能够将学习到的运动技能迁移到不同形态的机器人上,显著加快了机器人在新硬件配置下的部署和通用性。该模型还具备“先思考后行动”的能力,可以将长任务分解为更易于管理的子任务,并以更透明的方式展示其决策过程,从而增强了机器人在复杂环境中的适应性。

Gemini Robotics-ER 1.5 则是一款专注于具身推理(Embodied Reasoning)的模型,擅长理解物理空间、进行多步骤任务规划,并能接入如谷歌搜索等外部工具获取信息。该模型扮演着高层“协调者”的角色,能够规划、做出逻辑决策,并调用数字工具来辅助完成任务。这两种模型的协同工作方式,使得机器人能够更有效地泛化到更长期的任务和更多样的环境中。

此次发布对各行各业都将产生深远影响。在制造业和物流领域,机器人更高的自主性和适应性将显著提升效率。例如,Gemini Robotics 1.5 已被证明能够执行诸如按颜色分类衣物、根据天气预报打包行李等精细的家务任务。此外,机器人能够通过网络搜索来解决现实世界中的问题,例如根据当地规定对垃圾进行分类(可回收、堆肥、垃圾),这使得机器人能够处理前所未有的复杂性和不可预见性。

谷歌 DeepMind 的这一进展凸显了 AI 在推动机器人技术发展中的关键作用。随着 AI 算法、传感器技术和计算能力的不断进步,机器人正从执行预设指令的机器,转变为能够理解、推理并与环境互动的智能伙伴。Gemini Robotics-ER 1.5 的推出,使得机器人能够更自然地与人类交互,通过自然语言指令完成复杂任务,从而降低了使用门槛并增加了机器人的自主性。

谷歌 DeepMind 已通过 Gemini API 在 Google AI Studio 中向开发者提供 Gemini Robotics-ER 1.5,旨在激发更广泛的创新和应用。此次更新还强调了 AI 在机器人安全性方面的重要性。Gemini Robotics-ER 1.5 在内部测试中取得了先进的性能,并在升级后的 Asimov 安全基准测试中表现出色,这表明了谷歌 DeepMind 在开发安全可靠的具身 AI 方面的承诺。

来源

  • Silicon Republic

  • Google DeepMind Unveils Gemini Robotics 1.5 and ER 1.5 Models

  • Gemini Robotics - Google DeepMind

  • Gemini Robotics-ER 1.5 | Gemini API | Google AI for Developers

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。