En 2025, Google a franchi un nouveau jalon dans la génération vidéo par intelligence artificielle avec le déploiement de son modèle Veo 3.1. Cette itération succède à Veo 3, lancé plus tôt dans l'année, et consolide la capacité de la plateforme à créer des séquences haute définition à partir de simples invites textuelles ou visuelles. L'avancée majeure concerne l'intégration accrue de la synchronisation audio, incluant dialogues et effets sonores, reflétant une sophistication croissante des outils numériques au service de l'intention créative.
Le succès de Veo 3.1 est notamment mesuré par sa maîtrise du célèbre test du « Will Smith mangeant des spaghettis », un scénario qui, dès 2023, mettait en évidence les faiblesses des systèmes d'IA dans le rendu des expressions faciales et de la dynamique corporelle complexe. Le nouveau modèle parvient désormais à simuler avec justesse les nuances subtiles de cette action, y compris les détails fins comme les expressions faciales et les sons caractéristiques de l'ingestion de nourriture. Cette prouesse technique suggère une compréhension algorithmique approfondie des interactions physiques fines, ouvrant des perspectives nouvelles pour la production cinématographique et le contenu immersif.
Malgré cette avancée significative, des nuances persistent. Certains analystes ont relevé que, si la qualité visuelle est saisissante, les effets sonores générés par l'IA peuvent encore paraître légèrement artificiels, rappelant que la quête d'une imitation parfaite de la réalité est un processus continu. Pour assurer la transparence et maintenir une distinction claire entre le contenu synthétique et le réel, Google intègre systématiquement des filigranes indétectables à l'œil nu via la technologie SynthID et appose la mention « Veo » sur toutes les créations.
L'impact de Veo 3.1 s'étend au-delà de la prouesse technique. Des analyses indiquent que ces progrès pourraient transformer les chaînes de production pour les studios indépendants et les créateurs, en réduisant les coûts et les délais des effets spéciaux complexes. Cette évolution technologique, qui voit Google se positionner en tête face à des concurrents comme Sora d'OpenAI, force une réévaluation des compétences requises dans les métiers de l'audiovisuel. Veo 3.1 est disponible via l'API Gemini, Vertex AI, l'application Gemini et l'éditeur vidéo Flow.