Kling Video O1 : Le Premier Modèle Tout-en-Un pour la Génération et l'Édition Vidéo Basée sur le Texte

Édité par : Veronika Radoslavskaya

Le secteur de la vidéo assistée par intelligence artificielle connaît une mutation profonde avec l'introduction de Kling Video O1 (Omni One). Ce nouveau modèle de fondation puissant se positionne comme le moteur multimodal unifié pionnier au monde, capable à la fois de générer des vidéos et d'assurer des fonctions d'édition avancées. Développé par Kuaishou, ce système révolutionnaire vient briser la fragmentation habituelle du flux de travail créatif. Il dispense désormais les créateurs de la nécessité de jongler entre des outils distincts pour la conception, la retouche et le peaufinage.

La prouesse technologique essentielle réside dans la capacité d'O1 à intégrer une variété complexe d'éléments d'entrée au sein d'un processus unique et fluide. Cela inclut des invites textuelles, jusqu'à sept images de référence, ainsi que des séquences vidéo existantes. Grâce à ce moteur multimodal unifié, les utilisateurs peuvent produire des scènes en haute fidélité de 1080p, puis appliquer immédiatement des modifications de post-production en utilisant uniquement des commandes formulées en langage naturel. Les possibilités sont vastes : les utilisateurs peuvent simplement taper des instructions telles que « supprimer le passant à l'arrière-plan », « transformer le jour en crépuscule », ou « changer la tenue du personnage principal ». Le modèle interprète alors le contexte visuel pour exécuter ces ajustements avec une grande précision.

Kling Video O1 s'attaque de front aux problèmes récurrents de l'industrie, notamment en ce qui concerne la cohérence visuelle. Il a été conçu pour maintenir une cohérence des personnages et un style remarquables, même sur des séquences étendues impliquant des mouvements de caméra complexes. Il agit en quelque sorte comme un réalisateur humain, prévenant les artefacts de scintillement ou la dérive visuelle. De plus, le modèle offre un contrôle granulaire grâce à des fonctionnalités telles que le contrôle des images de début et de fin. Cela permet aux monteurs de définir précisément le point d'ancrage et de terminaison d'un plan, facilitant ainsi les transitions douces et l'animation précise d'images fixes.

Bien que les clips de base générés durent typiquement entre 5 et 10 secondes, l'architecture d'O1 permet de produire des séquences narratives plus longues et mieux articulées. Des rapports indiquent que la longueur de ces clips pourrait être étendue jusqu'à deux minutes, offrant une nouvelle dimension à la narration visuelle.

Sur le plan technique, le modèle bénéficie d'un système de raisonnement en chaîne de pensée (Chain-of-Thought ou CoT). Ce système améliore l'analyse des invites et la compréhension des lois de la physique appliquées aux scènes. Les résultats des bancs d'essai montrent des avantages significatifs en termes de performance par rapport à des concurrents comme Google Veo 3.1 et Runway Aleph, particulièrement lors de tâches de transformation complexes. En fusionnant ces sept capacités créatives fondamentales – allant du texte à la vidéo, en passant par l'extension de scène et l'édition – Kling Video O1 établit une nouvelle référence en matière d'efficacité professionnelle. Il garantit une qualité et une uniformité élevées, de l'ébauche initiale jusqu'au montage final.

13 Vues

Sources

  • מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי

  • Kling's Video O1 launches as the first all-in-one video model for generation and editing

  • Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com

  • Kling AI releases unified video model - Kr Asia

  • 'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model

  • Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium

Avez-vous trouvé une erreur ou une inexactitude ?

Nous étudierons vos commentaires dans les plus brefs délais.