Google DeepMind ha presentado Genie 3, un modelo de inteligencia artificial que genera entornos 3D interactivos y dinámicos a partir de indicaciones de texto. Esta tecnología permite a los usuarios explorar y manipular estos espacios virtuales en tiempo real, con una resolución de 720p y a 24 fotogramas por segundo, manteniendo la coherencia ambiental durante varios minutos. Genie 3 permite interactuar con los entornos y realizar cambios mediante "eventos mundiales programables", como alterar el clima o introducir nuevos elementos sobre la marcha.
La arquitectura autorregresiva de Genie 3, similar a la de los modelos de lenguaje grandes, es clave para su capacidad de recordar y procesar la trayectoria completa de las acciones del usuario, asegurando la continuidad de la experiencia. Las aplicaciones potenciales abarcan desde videojuegos y educación, facilitando la creación de experiencias de aprendizaje inmersivas, hasta el entrenamiento de agentes de IA, proporcionando entornos sintéticos realistas. Actualmente, Genie 3 se encuentra en una fase de vista previa limitada para investigadores y creadores de confianza, mientras Google DeepMind evalúa su uso para garantizar la seguridad y la responsabilidad.