El 5 de agosto de 2025, Google DeepMind presentó Genie 3, un modelo de inteligencia artificial que marca un avance significativo en la creación de entornos 3D interactivos. Este sistema permite a humanos y agentes de IA navegar y manipular mundos virtuales generados dinámicamente a partir de indicaciones de texto, abriendo nuevas vías para el aprendizaje, la simulación y la creatividad.
Genie 3 representa una evolución notable respecto a su predecesor, Genie 2. Mientras que las versiones anteriores ofrecían simulaciones de menor duración y resolución, Genie 3 es capaz de generar varios minutos de contenido interactivo a una fluida velocidad de 24 fotogramas por segundo y una resolución de 720p. Una de sus características más destacadas es la capacidad de mantener la coherencia física y la memoria de las interacciones pasadas, permitiendo que los entornos permanezcan consistentes incluso después de que el usuario se aleje y regrese a una ubicación. Esta persistencia visual, que puede durar hasta un minuto, otorga una sensación de realidad y continuidad sin precedentes. Shlomi Fruchter, director de investigación en Google DeepMind, ha descrito Genie 3 como el "primer modelo de mundo de propósito general interactivo en tiempo real", subrayando su importancia como un paso fundamental hacia la Inteligencia Artificial General (AGI).
La capacidad de Genie 3 para generar entornos complejos y dinámicos, que responden a "eventos desencadenados por comandos" a través de texto, permite a los agentes de IA aprender de sus propias experiencias de una manera que imita el aprendizaje humano. Esta metodología de generación "autorregresiva", que construye el mundo fotograma a fotograma sin depender de motores de física preprogramados, permite que el modelo desarrolle una comprensión emergente de las interacciones físicas. Las aplicaciones potenciales de Genie 3 son vastas, abarcando desde el entretenimiento y los videojuegos hasta la educación y la formación de agentes de IA como robots o vehículos autónomos.
Actualmente, Genie 3 se ofrece como una vista previa de investigación limitada, con planes de expandir su acceso a una audiencia más amplia en el futuro. Si bien el modelo presenta limitaciones, como la incapacidad de replicar ubicaciones geográficas del mundo real con precisión y la necesidad de refinar las interacciones complejas entre múltiples agentes, su desarrollo representa un avance crucial en la creación y manipulación intuitiva de mundos virtuales en tiempo real, impulsando la investigación en IA y ofreciendo una visión del futuro de la interacción tecnológica.