Kling Video O1: Kuaishou präsentiert das weltweit erste All-in-One-Modell für Videoerstellung und Textbearbeitung

Bearbeitet von: Veronika Radoslavskaya

Die Landschaft der Künstlichen Intelligenz im Videobereich erlebt eine tiefgreifende Verschiebung. Grund dafür ist die Einführung von Kling Video O1 (Omni One), einem neuen, leistungsstarken Basismodell. Dieses Modell wird als weltweit erste vereinheitlichte multimodale Engine präsentiert, die sowohl die Generierung von Videos als auch deren fortgeschrittene Bearbeitung in sich vereint. Entwickelt von Kuaishou, beseitigt dieses Modell die bisherige Zersplitterung im kreativen Prozess. Schöpfer müssen nun nicht mehr zwischen separaten Werkzeugen für die Erstellung, das Schneiden und die finale Verfeinerung hin- und herwechseln.

Der technologische Durchbruch von O1 liegt in seiner Fähigkeit, eine komplexe Mischung von Eingaben – darunter Textaufforderungen, bis zu sieben Referenzbilder und Videoclips – innerhalb eines einzigen, durchgängigen Workflows zu verarbeiten. Diese einheitliche multimodale Engine ermöglicht es Kreativen, hochauflösende 1080p-Szenen zu generieren und diese anschließend direkt mittels reiner Sprachbefehle nachzubearbeiten. Anwender können nun Anweisungen wie „Entferne den Passanten im Hintergrund“, „Ändere den Tag in die Abenddämmerung“ oder „Tausche das Outfit der Hauptfigur“ eingeben. Das Modell interpretiert den visuellen Kontext präzise, um diese Modifikationen exakt umzusetzen.

Kling Video O1 adressiert damit langjährige Herausforderungen der Branche, insbesondere im Hinblick auf die visuelle Kohärenz. Das System wurde daraufhin optimiert, eine herausragende Charakterkonsistenz und Stiltreue über längere Sequenzen und komplexe Kamerabewegungen hinweg zu gewährleisten. Es agiert quasi wie ein menschlicher Regisseur, der visuelles „Driften“ oder Flimmerartefakte effektiv verhindert. Darüber hinaus bietet das Modell eine feingranulare Steuerung durch Funktionen wie die Start- und Endrahmenkontrolle. Diese erlaubt es Editoren, exakt festzulegen, wann eine Aufnahme beginnen und enden soll, was nahtlose Übergänge und die präzise Animation von Standbildern erleichtert.

Obwohl Basisclips typischerweise eine Länge von etwa 5 bis 10 Sekunden aufweisen, unterstützt die Architektur von O1 die Erstellung längerer, in sich geschlossener narrativer Sequenzen. Berichten zufolge können diese Clips auf bis zu zwei Minuten ausgedehnt werden. Diese Fähigkeit zur narrativen Erweiterung ist ein wichtiger Schritt nach vorn.

Zu den technischen Stärken zählt insbesondere ein Chain-of-Thought (CoT) Reasoning-System. Dieses verbessert die Analyse von Prompts und das Verständnis physikalischer Zusammenhänge. Zudem zeigen beeindruckende Benchmark-Ergebnisse signifikante Leistungsvorteile gegenüber Konkurrenten wie Google Veo 3.1 und Runway Aleph bei anspruchsvollen Transformationsaufgaben. Durch die Zusammenführung dieser sieben zentralen kreativen Kapazitäten – von der Text-zu-Video-Konvertierung über die Szenenerweiterung bis hin zur direkten Bearbeitung – setzt Kling Video O1 einen neuen Maßstab für professionelle Effizienz. Es gewährleistet eine hohe Qualität und Konsistenz vom ersten Konzept bis zum finalen Schnitt, was im deutschen Kreativsektor sicherlich auf großes Interesse stoßen wird.

13 Ansichten

Quellen

  • מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי

  • Kling's Video O1 launches as the first all-in-one video model for generation and editing

  • Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com

  • Kling AI releases unified video model - Kr Asia

  • 'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model

  • Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?

Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.

Kling Video O1: Kuaishou präsentiert das w... | Gaya One