Kuaishou dévoile Kling AI 3.0 : Une révolution multimodale avec audio natif et narration multi-plans

Édité par : Veronika Radoslavskaya

Le 5 février 2026, Kuaishou Technology a officiellement levé le voile sur la famille de modèles Kling 3.0, marquant une progression fulgurante dans l'univers de l'intelligence artificielle générative. Cette nouvelle gamme se compose des modèles Video 3.0, Video 3.0 Omni, Image 3.0 et Image 3.0 Omni. Ce lancement ne représente pas seulement une mise à jour technique, mais un changement de paradigme vers un ensemble d'outils capables de diriger des scènes narratives complexes et structurées.

L'une des avancées les plus significatives de Kling 3.0 concerne l'intégration de l'audio natif, une prouesse qui transforme les vidéos IA de simples séquences muettes en expériences totalement immersives. Cette capacité permet de synchroniser parfaitement les éléments sonores avec l'action visuelle, offrant une profondeur inédite aux créations numériques.

En termes de communication, le modèle supporte désormais une génération de parole multilingue incluant l'anglais, le chinois, le japonais, le coréen et l'espagnol. La technologie va jusqu'à traiter les subtilités des accents régionaux, permettant par exemple de distinguer une élocution britannique d'un accent américain avec une fidélité remarquable.

La gestion des interactions entre personnages franchit également un nouveau cap. Kling 3.0 peut orchestrer des dialogues entre trois personnages distincts au sein d'une même scène. L'IA assure un suivi précis des locuteurs, attribue des timbres vocaux uniques à chacun et garantit une synchronisation labiale d'une précision chirurgicale pour un rendu naturel.

Au-delà des voix, le système excelle dans la création de sons diégétiques. Il génère des effets sonores synchronisés, tels que des bruits de pas ou des impacts, ainsi que des ambiances sonores et des musiques de fond qui s'harmonisent avec l'atmosphère visuelle. Cette approche holistique du son renforce considérablement le réalisme global de la production.

La fonctionnalité Intelligent Multi-Shot répond à une problématique majeure de la vidéo par IA : la cohérence du flux narratif. Grâce à cet outil, les créateurs peuvent désormais concevoir des séquences plus longues et mieux structurées, facilitant le passage d'une idée à une réalisation cinématographique concrète.

Les utilisateurs ont la possibilité de générer des séquences de 15 secondes pouvant intégrer jusqu'à six coupures de caméra distinctes. Cette flexibilité permet de construire un récit dynamique, où chaque plan contribue à l'évolution de l'histoire sans nécessiter de montages externes complexes.

Le contrôle directorial est particulièrement poussé, l'IA comprenant les codes du langage cinématographique. Elle permet des transitions fluides entre différents types de prises de vue, comme le passage d'un plan d'ensemble à un gros plan, ou l'alternance de points de vue entre deux personnages selon la technique du champ-contrechamp.

Un atout majeur du modèle Video 3.0 Omni est sa capacité à maintenir une identité constante pour les personnages et les décors à travers les différents plans. Les sujets conservent leurs caractéristiques propres sans subir de déformations visuelles ou de morphing lors des changements d'angle de caméra, assurant une continuité visuelle parfaite.

Sur le plan de la qualité d'image, les standards ont été revus à la hausse pour satisfaire les exigences professionnelles. Kling 3.0 propose une finesse de détails qui permet une utilisation dans des contextes de production de haut niveau, tant pour les images fixes que pour les vidéos.

Le modèle Image 3.0 Omni, dédié aux visuels statiques, supporte des résolutions allant du 2K au 4K. Il démontre une adhésion exceptionnelle aux instructions fournies, excellant notamment dans la gestion d'éclairages complexes et la reproduction de textures réalistes qui renforcent la crédibilité des images.

Le rendu textuel, souvent un point faible des modèles génératifs, a bénéficié d'améliorations majeures. Kling 3.0 est capable d'afficher des textes parfaitement lisibles sur des éléments tels que des panneaux de signalisation, des logos sur des vêtements ou des écrans d'appareils électroniques.

Pour la partie vidéo, Video 3.0 délivre une sortie native en 1080p avec une stabilité exemplaire du taux de rafraîchissement. Cette performance garantit une fluidité de mouvement optimale, même dans les scènes d'action les plus rapides, évitant les saccades et les artefacts visuels.

Enfin, concernant l'accessibilité, Kling 3.0 est actuellement disponible en accès anticipé exclusif via l'interface web de Kling AI. Pour les développeurs et les intégrations professionnelles, les modèles sont accessibles via une API proposée par le fournisseur tiers Fal AI, facilitant ainsi son adoption par l'industrie créative mondiale.

12 Vues

Sources

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

Avez-vous trouvé une erreur ou une inexactitude ?Nous étudierons vos commentaires dans les plus brefs délais.