Компанія Google випустила значне оновлення своєї моделі генерації відео на базі штучного інтелекту, представивши Veo 3.1. Ця нова версія, що вийшла менш ніж через п'ять місяців після анонсу Veo 3, пропонує розширений контроль над творчим процесом, включаючи синхронізований текст, візуальні підказки, діалоги та звукові ефекти. Розробка від Google DeepMind націлена на підвищення реалізму та кінематографічності контенту, що створюється.
Ключовим показником прогресу стало успішне проходження Veo 3.1 неофіційного "тесту Вілла Сміта, який їсть спагеті". Цей еталон, що виник у 2023 році після появи спотворених відео, створених, зокрема, інструментом ModelScope, тепер долається з високою достовірністю. На відміну від сюрреалістичних ранніх спроб, Veo 3.1 відтворює найдрібніші деталі, включаючи міміку актора та звуки поїдання, хоча деякі користувачі все ще відзначають штучність окремих аудіоелементів.
Модель Veo 3.1, доступна через Gemini API та у застосунку Gemini, впроваджує нові творчі інструменти. Серед них — можливість керувати генерацією за допомогою референсних зображень для збереження стилю та персонажів, а також функція "Scene extension" для створення довших відео. Крім того, користувачі можуть задавати перше та останнє кадри, дозволяючи ШІ згенерувати плавні переходи між ними.
Незважаючи на технологічний прорив, що приваблює Голлівуд та рекламодавців, розробка загострює дискусії щодо етичних меж та поширення діпфейків. Google впроваджує заходи прозорості: контент, створений ШІ, маркуватиметься позначкою «Veo», а також отримуватиме невидимі водяні знаки за допомогою технології SynthID, вбудованої безпосередньо у пікселі відео для легшого відстеження синтетичного контенту.
Цей етап розвитку технологій дає можливість творцям зосередитися на глибині свого бачення, перетворюючи ідеї на чіткі образи. Проте, як і будь-який потужний інструмент, здатність створювати реальність за запитом вимагає усвідомленого та відповідального підходу до його застосування у формуванні цифрових наративів.