Google DeepMind ha anunciado el lanzamiento de dos avanzados modelos de inteligencia artificial: Gemini Robotics 1.5 y Gemini Robotics-ER 1.5. Estos modelos representan un avance significativo en la autonomía y adaptabilidad de los robots, permitiéndoles operar de manera más sofisticada en entornos físicos complejos.
Gemini Robotics 1.5 es un modelo de visión-lenguaje-acción (VLA) capaz de interpretar información visual e instrucciones para generar comandos motores. Una de sus características más destacadas es la transferencia de movimientos aprendidos entre diferentes configuraciones de robots, lo que acelera el aprendizaje de habilidades y reduce la necesidad de reentrenamiento. Este modelo también puede "pensar antes de actuar", mostrando su proceso de razonamiento para una mayor transparencia.
Por su parte, Gemini Robotics-ER 1.5 es un modelo de razonamiento incorporado (ER) especializado en la comprensión de espacios físicos y la planificación de tareas de múltiples pasos. Este modelo puede acceder a herramientas digitales como Google Search para obtener información y utilizar funciones definidas por el usuario. Ha alcanzado un rendimiento de vanguardia en puntos de referencia de razonamiento incorporado, como ERQA y Point-Bench.
La sinergia entre ambos modelos es clave: ER 1.5 se encarga de la planificación de alto nivel y la generación de instrucciones, mientras que VLA 1.5 ejecuta las acciones físicas. Esta arquitectura colaborativa mejora la generalización de los robots en diversas tareas y entornos. La disponibilidad de Gemini Robotics-ER 1.5 a través de la API de Gemini en Google AI Studio abre nuevas posibilidades para los desarrolladores, impulsando la innovación en el campo de la robótica y la "IA Física".