Google DeepMind abre el acceso anticipado exclusivo al prototipo de 'Project Genie'

Editado por: Veronika Radoslavskaya

El 29 de enero de 2026, Google DeepMind marcó un hito en la evolución de la inteligencia artificial al anunciar la apertura de un acceso temprano y restringido para Project Genie. Este prototipo de investigación experimental se encuentra disponible exclusivamente para los suscriptores de Gemini Ultra en los Estados Unidos, permitiéndoles generar y explorar entornos dinámicos creados íntegramente a partir de descripciones de texto o imágenes de referencia.

La arquitectura tecnológica que sustenta a Project Genie es un sistema híbrido altamente sofisticado que integra tres motores de IA distintos. Esta combinación permite que la plataforma no solo interprete las órdenes del usuario, sino que también construya una realidad visual coherente y reactiva en tiempo real, superando las capacidades de los modelos generativos convencionales.

  • Genie 3 (Modelo de Mundo): Se trata del modelo fundacional de DeepMind diseñado para predecir el siguiente fotograma en una secuencia de video. Su función es simular un entorno consistente que respete leyes de física simplificada, permitiendo una navegación lógica a través del espacio generado.
  • Nano Banana Pro: Esta es una variante del modelo de imagen potenciado por Gemini, cuya responsabilidad principal es transformar el "prompt" inicial del usuario en una base visual de alta calidad que sirve como punto de partida estético para la simulación.
  • Gemini (Orquestador): Este agente funciona como el motor de razonamiento del sistema, gestionando la perspectiva de la cámara y las acciones de los personajes para garantizar que la interacción sea fluida y responda con precisión a los comandos del usuario.

A diferencia de los motores de videojuegos 3D tradicionales, Project Genie opera mediante la creación de entornos de flujo de video interactivos. El sistema genera una corriente continua de imágenes en tiempo real que reaccionan a las entradas de control, ofreciendo una experiencia de exploración única y con una estética que muchos investigadores describen como onírica.

Durante esta etapa de pruebas experimentales, la herramienta está sujeta a rigurosas restricciones técnicas debido a la inmensa capacidad de cómputo que requiere la generación de video en tiempo real. Estas limitaciones son necesarias para mantener la estabilidad del sistema mientras se recopilan datos cruciales para su desarrollo futuro.

  • Límite de Sesión: Las interacciones interactivas están estrictamente limitadas a una duración máxima de 60 segundos por cada sesión de usuario.
  • Rendimiento Visual: Los entornos generados se presentan con una resolución de 720p y mantienen una tasa de refresco de 24 fotogramas por segundo (FPS).
  • Función de Remix: Los usuarios cuentan con una herramienta de "remixing" que permite modificar las creaciones existentes, alterando el estilo artístico o las reglas ambientales de un mundo que ya ha sido generado previamente.

Desde una perspectiva estratégica, Shlomi Fruchter, Director de Investigación en DeepMind, señaló que este prototipo tiene como objetivo demostrar capacidades interactivas que son imposibles de lograr mediante los métodos de renderizado convencionales. La apertura al público busca recolectar una base de datos masiva para mejorar el entrenamiento de los modelos de mundo.

El objetivo final de este despliegue es perfeccionar la forma en que los modelos de IA comprenden la física y la lógica espacial. Este es un paso fundamental hacia la creación de agentes de IA incorporada (embodied AI) más seguros, con aplicaciones potenciales en la robótica avanzada y en el desarrollo de simulaciones de alta complejidad para diversos sectores científicos e industriales.

15 Vues

Fuentes

  • Cadena 3 Argentina

  • The Tech Buzz

  • The Tech Buzz

  • Android Authority

  • The Tech Buzz

  • Google DeepMind: The Podcast

¿Encontró un error o inexactitud?Consideraremos sus comentarios lo antes posible.