Google DeepMind 於 2025 年 9 月 25 日發表兩款先進的 AI 模型:Gemini Robotics 1.5 和 Gemini Robotics-ER 1.5,旨在顯著增強機器人在複雜實體環境中的自主性、適應性與推理能力。這項突破標誌著機器人技術邁向一個新紀元,使機器人不僅能執行指令,更能進行思考、規劃與適應。 Gemini Robotics 1.5 是一款視覺-語言-動作(VLA)模型,能夠解析視覺輸入和使用者指令,進而生成精確的運動指令,執行如依顏色分類衣物等複雜任務。其關鍵特色之一是能夠將學習到的動作跨不同機器人載體轉移,大幅縮短了為新硬體重新訓練模型所需的時間與精力,解決了機器人學習中的一個重要瓶頸,預計將加速機器人的部署與多功能化。
另一款模型 Gemini Robotics-ER 1.5 則是一款具身推理(ER)模型,專精於理解實體空間和規劃多步驟任務。它能夠存取 Google 搜尋等工具以獲取資訊,並能利用使用者定義的功能。該模型在學術和內部基準測試中均取得了最先進的表現,尤其在空間理解方面表現卓越。Gemini Robotics-ER 1.5 的推出,讓機器人能夠進行更複雜的任務規劃,並將長期目標分解為一系列合理的子任務。
這兩款模型被設計成協同工作,由 ER 模型負責協調行動,VLA 模型則負責執行。這種架構旨在增強模型在不同任務和環境中的泛化能力。例如,機器人可以透過 Gemini Robotics-ER 1.5 查詢當地的垃圾分類規定,然後利用 Gemini Robotics 1.5 將物品準確地分類並放入正確的回收箱或垃圾桶。這種整合能力使得機器人能夠處理需要情境資訊和多步驟才能完成的日常任務。
Google DeepMind 的資深總監兼機器人部門主管 Carolina Parada 強調,這項進展代表著機器人技術正邁向一個質的新階段,從僅能執行單一指令轉變為真正理解和解決實體任務中的問題。Gemini Robotics-ER 1.5 現已透過 Google AI Studio 的 Gemini API 向開發者開放,而 Gemini Robotics 1.5 則提供給特定合作夥伴。這項技術的發展,預示著一個機器人將成為更智慧、更靈活的實體任務夥伴的未來。