Google DeepMind öffnet frühen Zugang zum „Project Genie“-Prototyp für Gemini Ultra-Nutzer

Bearbeitet von: Veronika Radoslavskaya

Am 29. Januar 2026 kündigte Google DeepMind den Start einer exklusiven, frühen Testphase für Project Genie an. Dabei handelt es sich um einen experimentellen Forschungsprototypen, der zum aktuellen Zeitpunkt ausschließlich Abonnenten von Gemini Ultra innerhalb der Vereinigten Staaten zur Verfügung steht. Diese Veröffentlichung markiert einen bedeutenden Fortschritt in der generativen KI, da sie es Anwendern ermöglicht, vollständig dynamische Umgebungen zu erschaffen und zu erkunden, die entweder auf einfachen Textanweisungen oder bereitgestellten Referenzbildern basieren.

Die Einführung von Project Genie ist strategisch in das Ökosystem von Google integriert und zielt darauf ab, die Grenzen zwischen statischer Inhaltserstellung und interaktiver Simulation zu verwischen. Nutzer in den USA, die den Premium-Dienst Gemini Ultra nutzen, erhalten damit die Möglichkeit, als Pioniere in virtuelle Welten einzutauchen, die in Echtzeit von künstlicher Intelligenz generiert werden. Das System ist darauf ausgelegt, komplexe Szenarien zu interpretieren und diese in visuell erfahrbare Räume zu transformieren.

Hinter der Benutzeroberfläche von Project Genie verbirgt sich eine hochentwickelte, hybride KI-Architektur, die auf der nahtlosen Integration von drei spezialisierten Systemen basiert. Diese Architektur stellt sicher, dass die generierten Welten nicht nur visuell ansprechend sind, sondern auch eine gewisse logische Konsistenz aufweisen. Die Zusammenarbeit dieser Komponenten ermöglicht eine Form der Interaktivität, die bisher in der KI-Forschung als äußerst schwierig umzusetzen galt.

  • Genie 3 (World Model): Dies ist das fundamentale Weltmodell von DeepMind, das darauf spezialisiert ist, das jeweils nächste Einzelbild einer Videosequenz auf Basis der Nutzereingaben vorherzusagen. Es simuliert eine beständige Umgebung und wendet dabei vereinfachte physikalische Gesetze an, um die Stabilität der Welt zu gewährleisten.
  • Nano Banana Pro: Als eine spezifische Variante des Gemini-Bildmodells übernimmt diese Komponente die Aufgabe, den initialen Prompt des Nutzers in eine hochwertige visuelle Ausgangsbasis zu verwandeln. Diese dient als das grafische Fundament, auf dem die gesamte nachfolgende Simulation aufgebaut wird.
  • Gemini (Orchestrator): Dieser Agent fungiert als das zentrale logische Gehirn für die Interaktion. Er verwaltet die Kameraperspektiven und die Bewegungen der Charaktere innerhalb der Welt, wodurch sichergestellt wird, dass sich die Navigation durch die Umgebung für den Nutzer natürlich und reaktionsschnell anfühlt.

Ein wesentlicher Unterschied zu herkömmlichen 3D-Grafik-Engines besteht darin, dass Project Genie interaktive Video-Streams erzeugt. Anstatt Polygone und Texturen in einem klassischen Rendering-Verfahren zu berechnen, generiert das System einen kontinuierlichen Fluss von Videobildern in Echtzeit. Diese Bilder reagieren unmittelbar auf die Steuerungseingaben des Nutzers, was zu einer einzigartigen und oft als traumähnlich beschriebenen Erkundungserfahrung führt.

Während dieser ersten experimentellen Phase unterliegt das Werkzeug jedoch noch deutlichen technischen Einschränkungen, die den frühen Charakter der Technologie unterstreichen. Aufgrund der enormen Rechenleistung, die für die Echtzeit-Generierung dieser interaktiven Welten erforderlich ist, sind die einzelnen Sitzungen streng auf eine Dauer von 60 Sekunden begrenzt. Diese zeitliche Deckelung ist notwendig, um die Serverkapazitäten stabil zu halten und gleichzeitig eine flüssige Erfahrung zu gewährleisten.

In Bezug auf die visuelle Qualität werden die Umgebungen derzeit mit einer Auflösung von 720p und einer Bildrate von 24 Bildern pro Sekunde (FPS) gerendert. Trotz dieser festen Parameter bietet das System kreative Flexibilität durch eine innovative „Remixing“-Funktion. Diese erlaubt es den Anwendern, bereits generierte Welten nachträglich zu bearbeiten, indem sie beispielsweise den künstlerischen Stil verändern oder die grundlegenden Umweltregeln einer bestehenden Kreation modifizieren.

Shlomi Fruchter, der Forschungsdirektor bei DeepMind, erläuterte den strategischen Hintergrund des Projekts und wies darauf hin, dass der Prototyp dazu dient, interaktive Fähigkeiten zu demonstrieren, die mit Standard-Rendering-Methoden schlichtweg nicht erreichbar sind. Das primäre Ziel dieses öffentlichen Tests ist weniger die Unterhaltung, sondern vielmehr die Gewinnung umfangreicher Trainingsdaten unter realen Bedingungen.

Die durch Project Genie gesammelten Erkenntnisse sollen dazu beitragen, das Verständnis von Weltmodellen hinsichtlich Physik und räumlicher Logik massiv zu verbessern. Dies gilt als ein entscheidender Meilenstein auf dem Weg zur Entwicklung sichererer „verkörperter“ KI-Agenten (Embodied AI). Solche Agenten sind für die Zukunft der Robotik und für hochkomplexe Simulationen von zentraler Bedeutung, da sie lernen müssen, sich in physischen oder simulierten Räumen autonom und sicher zu bewegen.

Zusammenfassend lässt sich sagen, dass Google DeepMind mit Project Genie einen mutigen Schritt in Richtung einer Zukunft macht, in der digitale Welten nicht mehr mühsam programmiert, sondern durch KI-Modelle erträumt und in Echtzeit berechnet werden. Die Kombination aus Genie 3, Nano Banana Pro und dem Gemini-Orchestrator bildet ein kraftvolles Trio, das die Art und Weise, wie wir über virtuelle Interaktion denken, nachhaltig verändern könnte.

15 Ansichten

Quellen

  • Cadena 3 Argentina

  • The Tech Buzz

  • The Tech Buzz

  • Android Authority

  • The Tech Buzz

  • Google DeepMind: The Podcast

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.