W roku 2025 firma Google zaprezentowała swój najnowszy model generowania wideo zasilany sztuczną inteligencją, Veo 3.1. Ta zaawansowana technologia umożliwia tworzenie materiałów wideo o wysokiej rozdzielczości na podstawie komend tekstowych i wizualnych. Nowa wersja integruje zaawansowaną synchronizację dźwięku, dialogów oraz efektów akustycznych. W porównaniu do wcześniejszych iteracji, Veo 3.1 wprowadza istotne udoskonalenia, pozwalając na transformację obrazów referencyjnych w dynamiczną treść oraz płynne rozszerzanie scen.
Kamieniem milowym w ewolucji tego narzędzia jest pomyślne zaliczenie niesławnego testu „Willa Smitha jedzącego spaghetti”. Scenariusz ten, który w 2023 roku obnażył ograniczenia modeli AI w zakresie mimiki twarzy i ruchu, został teraz opanowany przez Veo 3.1. Nowy model precyzyjnie symuluje detale, takie jak subtelne wyrazu twarzy i odgłosy jedzenia. Warto przypomnieć, że pierwotne, nieudane próby generowania tego obrazu z 2023 roku, stworzone przez wczesne modele jak ModelScope, ukazywały postać o nienaturalnych ruchach, co stało się internetowym memem i nieformalnym miernikiem postępu w dziedzinie wideo AI.
Osiągnięcie to, choć imponujące, jest dowodem na to, jak szybko zmienia się krajobraz cyfrowej kreacji. Mimo zaawansowanej symulacji, niektórzy obserwatorzy wskazali, że efekty dźwiękowe wciąż wydają się sztuczne. Przykładowo, odgłosy przeżuwania spaghetti bywają porównywane do chrupania chipsów, co sygnalizuje obszary wymagające dalszego dopracowania. To drobne niedociągnięcie stanowi cenną informację zwrotną, ukazując, że droga do pełnej wierności rzeczywistości wymaga ciągłej kalibracji percepcji.
Google, świadome wyzwań związanych z autentycznością cyfrową, wdraża mechanizmy mające na celu zachowanie przejrzystości. W treściach generowanych przez Veo 3.1 osadzane są niewidoczne znaki wodne, znane jako SynthID, a materiały są dodatkowo oznaczane etykietą „Veo”. Technologia SynthID, opracowana przez Google DeepMind, osadza niewidoczny, ale wykrywalny cyfrowo znak wodny bezpośrednio w pikselach obrazu lub klatkach wideo. Znak ten jest zaprojektowany tak, by przetrwać typowe modyfikacje, takie jak kadrowanie czy kompresja.
Co więcej, Google udostępniło SynthID jako narzędzie open source w ramach Zestawu Narzędzi Google Responsible Generative AI, umożliwiając szerszemu gronu deweloperów stosowanie tej technologii w celu budowania zaufania cyfrowego. Ten skok technologiczny w produkcji wideo AI jest postrzegany jako znaczący krok naprzód, jednocześnie jednak ponownie rozbudza dyskusje na temat deepfake'ów i zacierającej się granicy między tym, co jest rzeczywiste, a tym, co jest kreacją cyfrową. Zdolność do tworzenia niemal nieodróżnialnych materiałów zmusza do refleksji nad osobistą odpowiedzialnością w odbiorze informacji i weryfikacji źródeł.