Google DeepMind otwiera wczesny dostęp do projektu Genie: Nowa era interaktywnych światów generowanych przez AI
Edytowane przez: Veronika Radoslavskaya
W dniu 29 stycznia 2026 roku firma Google DeepMind ogłosiła przełom w dziedzinie generatywnej sztucznej inteligencji, udostępniając ograniczony, wczesny dostęp do prototypu badawczego o nazwie Project Genie. To innowacyjne narzędzie jest obecnie dostępne wyłącznie dla subskrybentów usługi Gemini Ultra na terenie Stanów Zjednoczonych. Projekt ten pozwala użytkownikom na tworzenie i swobodną eksplorację dynamicznych środowisk, które powstają w całości na podstawie wpisanych komend tekstowych lub przesłanych obrazów referencyjnych.
Sercem Project Genie jest niezwykle zaawansowana, hybrydowa architektura, która łączy w sobie trzy wyspecjalizowane systemy sztucznej inteligencji, współpracujące ze sobą w celu stworzenia spójnego doświadczenia:
- Genie 3 (Model Świata): Jest to fundament opracowany przez DeepMind, który przewiduje każdą kolejną klatkę sekwencji wideo w oparciu o interakcje użytkownika, symulując stabilne otoczenie z zachowaniem uproszczonych praw fizyki.
- Nano Banana Pro: Specjalny wariant modelu obrazu z rodziny Gemini, którego zadaniem jest transformacja początkowego promptu w wysokiej jakości bazę wizualną niezbędną do rozpoczęcia symulacji.
- Gemini (Orkiestrator): Pełni rolę silnika rozumowania, który zarządza perspektywą kamery oraz ruchami postaci, dbając o to, by nawigacja po świecie była płynna i natychmiastowo reagowała na polecenia.
W przeciwieństwie do klasycznych silników gier 3D, Project Genie generuje interaktywne strumienie wideo w czasie rzeczywistym. System tworzy nieprzerwany potok klatek, które dynamicznie dostosowują się do sygnałów sterujących wysyłanych przez użytkownika. Takie podejście oferuje unikalne, niemal oniryczne wrażenia z eksploracji, gdzie granica między statycznym obrazem a interaktywną przestrzenią ulega całkowitemu zatarciu.
Na obecnym etapie eksperymentalnym narzędzie to funkcjonuje w ramach rygorystycznych ograniczeń technicznych, co wynika z ogromnego zapotrzebowania na moc obliczeniową niezbędną do renderowania obrazu na żywo. Sesje interaktywne są ograniczone do maksymalnie 60 sekund, a generowane środowiska wyświetlane są w rozdzielczości 720p przy płynności 24 klatek na sekundę (FPS). Te parametry mają zapewnić stabilność systemu podczas intensywnych testów prowadzonych przez pierwszą grupę użytkowników.
Uczestnicy testów mogą również korzystać z innowacyjnej funkcji „remiksowania”, która pozwala na głęboką modyfikację już wygenerowanych światów. Dzięki temu możliwe jest zmienianie stylu artystycznego lub modyfikowanie fundamentalnych zasad rządzących danym otoczeniem bez konieczności tworzenia wszystkiego od nowa. Jest to kluczowy element pozwalający na kreatywne eksperymentowanie z estetyką i logiką cyfrowych przestrzeni.
Shlomi Fruchter, dyrektor ds. badań w DeepMind, podkreślił, że głównym celem tego prototypu jest odkrycie nowych możliwości interaktywnych, których nie da się uzyskać za pomocą standardowych metod renderowania grafiki. Publiczne testy mają przede wszystkim służyć zgromadzeniu cennych danych treningowych, które pozwolą modelom świata lepiej rozumieć fizykę oraz logikę przestrzenną. Jest to niezbędny krok w kierunku budowy bezpieczniejszych agentów ucieleśnionej sztucznej inteligencji, znajdujących zastosowanie w zaawansowanej robotyce i złożonych symulacjach.
15 Wyświetlenia
Źródła
Cadena 3 Argentina
The Tech Buzz
The Tech Buzz
Android Authority
The Tech Buzz
Google DeepMind: The Podcast
Przeczytaj więcej wiadomości na ten temat:
Czy znalazłeś błąd lub niedokładność?Rozważymy Twoje uwagi tak szybko, jak to możliwe.
