Google DeepMind сделал значительный шаг вперед в области робототехники, представив 25 сентября 2025 года две новые передовые модели искусственного интеллекта: Gemini Robotics 1.5 и Gemini Robotics-ER 1.5. Эти модели призваны кардинально улучшить автономность, адаптивность и способность роботов к рассуждению в сложных физических условиях.
Gemini Robotics 1.5 представляет собой модель «зрение-язык-действие» (VLA), которая интерпретирует визуальные данные и инструкции пользователя для генерации команд движения. Ключевой особенностью является способность передавать выученные движения между различными роботизированными платформами без необходимости специализированного обучения для каждой новой конфигурации, что значительно ускоряет процесс обучения новых поведенческих моделей. Модель также способна «думать перед действием», анализируя процесс принятия решений и объясняя его на естественном языке, что повышает прозрачность работы робота.
Gemini Robotics-ER 1.5 — это модель «воплощенного рассуждения» (ER), специализирующаяся на понимании физических пространств и планировании многошаговых задач. Эта модель действует как высокоуровневый «оркестратор», планируя действия и принимая логические решения. Она может использовать внешние инструменты, такие как Google Поиск, для получения информации, а также применять пользовательские функции. Gemini Robotics-ER 1.5 передает Gemini Robotics 1.5 инструкции на естественном языке для каждого шага, а та, в свою очередь, выполняет конкретные действия, используя свое понимание визуальной информации и языка.
Совместная работа этих двух моделей направлена на повышение обобщающей способности роботов при выполнении задач и работе в различных средах. Gemini Robotics-ER 1.5 уже доступна разработчикам через Gemini API в Google AI Studio, в то время как Gemini Robotics 1.5 предоставляется избранным партнерам. Эти разработки знаменуют собой важный этап на пути к созданию роботов, способных ориентироваться в сложностях физического мира с интеллектом и ловкостью, переходя от простых исполнителей команд к системам, которые могут рассуждать, планировать и адаптироваться.
Внедрение Gemini Robotics 1.5 и ER 1.5 отражает общий тренд в развитии искусственного интеллекта для робототехники, где акцент смещается с выполнения простых, механических задач на создание интеллектуальных систем, способных к адаптации, обучению и принятию решений в реальном времени. Как отмечают эксперты, ИИ становится «мозгом», а робототехника — «телом», и их синергия открывает новые горизонты для автоматизации и решения сложных задач в различных отраслях, от производства до здравоохранения и логистики.
Способность роботов использовать такие инструменты, как Google Поиск, для получения информации в реальном времени, позволяет им справляться с непредвиденными ситуациями и выполнять задачи, требующие более глубокого понимания контекста и планирования. Это приближает нас к созданию более универсальных и способных роботов-партнеров в физическом мире.