Google DeepMind、ロボットの自律性と適応性を飛躍的に向上させるGemini Robotics 1.5およびER 1.5を発表

編集者: Veronika Radoslavskaya

Google DeepMindは2025年9月25日、複雑な物理環境におけるロボットの自律性、適応性、推論能力を大幅に向上させることを目的とした、2つの先進的なAIモデル、Gemini Robotics 1.5およびGemini Robotics-ER 1.5を発表しました。この発表は、ロボット工学分野における重要な進歩を示しています。

Gemini Robotics 1.5は、視覚情報とユーザーの指示を解釈してモーターコマンドを生成するビジョン・言語・アクション(VLA)モデルです。これにより、ロボットは例えば洗濯物を色別に仕分けるといったタスクを実行できるようになります。特筆すべきは、学習した動作を異なるロボットの筐体間で転送できる能力であり、これにより新しいハードウェア構成ごとに広範な再トレーニングが必要となるロボット学習における大きなボトルネックが解消されます。

一方、Gemini Robotics-ER 1.5は、物理空間の理解と多段階タスクの計画に特化した、エンボディド・リーゾニング(ER)モデルです。このモデルは、情報収集のためにGoogle検索のようなツールにアクセスしたり、ユーザー定義関数を利用したりすることができます。ERモデルは、ロボットの活動を調整する高レベルの脳として機能し、最先端の空間理解能力を備えています。

これら2つのモデルは連携して動作するように設計されており、ERモデルがアクションをオーケストレーションし、VLAモデルがそれを実行します。この協調的なアーキテクチャは、タスクや環境を横断した汎化能力を高めることを目指しています。Gemini Robotics-ER 1.5は、Google AI StudioのGemini APIを通じて開発者が利用可能になっており、ロボット工学における革新と広範な採用を促進します。Gemini Robotics 1.5は現在、選ばれたパートナーに提供されています。

これらの進歩は、ロボットが単なるコマンド応答者から、推論、計画、適応ができるシステムへと進化する未来を示唆しています。物理AIの分野におけるこれらの進展は、製造業、物流、ヘルスケアなど、さまざまな産業に広範な影響を与える可能性を秘めています。特に、ロボットが現実世界の複雑さを知性と器用さでナビゲートできるようになることは、よりインテリジェントで汎用性の高いロボットの構築に向けた大きな一歩となります。この技術は、ロボットが単に指示に従うだけでなく、状況を理解し、自律的に判断を下す能力を獲得することを目指しています。例えば、ロボットがロンドンの天気予報に基づいてスーツケースに荷物を詰めたり、オンライン検索で地域のゴミ分別規則を調べてから分別作業を行ったりすることが可能になります。これは、従来のロボットが一度に1つの指示を実行することに長けていたのに対し、より深い理解と問題解決能力を持つシステムへの移行を示しています。

ソース元

  • Silicon Republic

  • Google DeepMind Unveils Gemini Robotics 1.5 and ER 1.5 Models

  • Gemini Robotics - Google DeepMind

  • Gemini Robotics-ER 1.5 | Gemini API | Google AI for Developers

エラーや不正確な情報を見つけましたか?

できるだけ早くコメントを考慮します。