Przełom Veo 3.1 od Google: AI Opanowuje Test Spaghetti Willa Smitha

13:39, 16 października

Edytowane przez: gaya ❤️ one

W roku 2025 firma Google zaprezentowała swój najnowszy model generowania wideo zasilany sztuczną inteligencją, Veo 3.1. Ta zaawansowana technologia umożliwia tworzenie materiałów wideo o wysokiej rozdzielczości na podstawie komend tekstowych i wizualnych. Nowa wersja integruje zaawansowaną synchronizację dźwięku, dialogów oraz efektów akustycznych. W porównaniu do wcześniejszych iteracji, Veo 3.1 wprowadza istotne udoskonalenia, pozwalając na transformację obrazów referencyjnych w dynamiczną treść oraz płynne rozszerzanie scen.

Kamieniem milowym w ewolucji tego narzędzia jest pomyślne zaliczenie niesławnego testu „Willa Smitha jedzącego spaghetti”. Scenariusz ten, który w 2023 roku obnażył ograniczenia modeli AI w zakresie mimiki twarzy i ruchu, został teraz opanowany przez Veo 3.1. Nowy model precyzyjnie symuluje detale, takie jak subtelne wyrazu twarzy i odgłosy jedzenia. Warto przypomnieć, że pierwotne, nieudane próby generowania tego obrazu z 2023 roku, stworzone przez wczesne modele jak ModelScope, ukazywały postać o nienaturalnych ruchach, co stało się internetowym memem i nieformalnym miernikiem postępu w dziedzinie wideo AI.

Osiągnięcie to, choć imponujące, jest dowodem na to, jak szybko zmienia się krajobraz cyfrowej kreacji. Mimo zaawansowanej symulacji, niektórzy obserwatorzy wskazali, że efekty dźwiękowe wciąż wydają się sztuczne. Przykładowo, odgłosy przeżuwania spaghetti bywają porównywane do chrupania chipsów, co sygnalizuje obszary wymagające dalszego dopracowania. To drobne niedociągnięcie stanowi cenną informację zwrotną, ukazując, że droga do pełnej wierności rzeczywistości wymaga ciągłej kalibracji percepcji.

Google, świadome wyzwań związanych z autentycznością cyfrową, wdraża mechanizmy mające na celu zachowanie przejrzystości. W treściach generowanych przez Veo 3.1 osadzane są niewidoczne znaki wodne, znane jako SynthID, a materiały są dodatkowo oznaczane etykietą „Veo”. Technologia SynthID, opracowana przez Google DeepMind, osadza niewidoczny, ale wykrywalny cyfrowo znak wodny bezpośrednio w pikselach obrazu lub klatkach wideo. Znak ten jest zaprojektowany tak, by przetrwać typowe modyfikacje, takie jak kadrowanie czy kompresja.

Co więcej, Google udostępniło SynthID jako narzędzie open source w ramach Zestawu Narzędzi Google Responsible Generative AI, umożliwiając szerszemu gronu deweloperów stosowanie tej technologii w celu budowania zaufania cyfrowego. Ten skok technologiczny w produkcji wideo AI jest postrzegany jako znaczący krok naprzód, jednocześnie jednak ponownie rozbudza dyskusje na temat deepfake'ów i zacierającej się granicy między tym, co jest rzeczywiste, a tym, co jest kreacją cyfrową. Zdolność do tworzenia niemal nieodróżnialnych materiałów zmusza do refleksji nad osobistą odpowiedzialnością w odbiorze informacji i weryfikacji źródeł.

Źródła

Webtekno
PetaPixel
South China Morning Post
Quartz

Przeczytaj więcej wiadomości na ten temat:

09 października

Gemini Enterprise od Google: Nowa Era Integracji Sztucznej Inteligencji w Przedsiębiorstwach

30 września

Google Wprowadza Tryb AI do Wyszukiwania Wizualnego i Kontekstowego

11 września

Larry Ellison Najbogatszym Człowiekiem Świata Dzięki Wzrostowi Oracle Napędzanemu Przez Sztuczną Inteligencję

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.

Centrum powiadomień

Centrum powiadomień

Przełom Veo 3.1 od Google: AI Opanowuje Test Spaghetti Willa Smitha

Źródła

Przeczytaj więcej wiadomości na ten temat: