Kuaishou präsentiert Kling AI 3.0: Eine neue Ära der multimodalen Videogenerierung mit nativer Audio-Unterstützung

Bearbeitet von: Veronika Radoslavskaya

Am 5. Februar 2026 setzte Kuaishou Technology einen bedeutenden Meilenstein in der Entwicklung künstlicher Intelligenz. Mit der offiziellen Einführung der Kling 3.0-Modellfamilie, die die Versionen Video 3.0, Video 3.0 Omni sowie Image 3.0 und Image 3.0 Omni umfasst, transformiert das Unternehmen die Erstellung digitaler Inhalte grundlegend. Dieser Release markiert einen entscheidenden Wendepunkt weg von der bloßen Generierung isolierter Videoclips hin zu einem umfassenden Instrumentarium für die Regie komplexer, narrativ getriebener Szenen.

Diese neue Generation der künstlichen Intelligenz ermöglicht es Kreativen, filmische Visionen mit einer bisher unerreichten Tiefe und Professionalität umzusetzen. Die Architektur hinter Kling 3.0 wurde gezielt darauf ausgelegt, visuelle und auditive Elemente in einer Weise zu verknüpfen, die die Produktion von Inhalten auf professionellem Niveau erheblich vereinfacht und neue kreative Spielräume eröffnet.

Ein zentraler technologischer Fortschritt liegt in den erweiterten Fähigkeiten für natives Audio. Kling 3.0 hebt die KI-Videoproduktion auf eine neue Stufe, indem es stumme Sequenzen in vollständig immersive Erlebnisse verwandelt. Die Modelle sind nun in der Lage, Tonspuren direkt mit den visuellen Inhalten zu synchronisieren, was die Authentizität der generierten Medien massiv steigert.

  • Die Modelle unterstützen die Spracherzeugung in den Sprachen Englisch, Chinesisch, Japanisch, Koreanisch und Spanisch. Dabei werden auch feine Akzentunterschiede, wie etwa die Nuancen zwischen britischem und amerikanischem Englisch, präzise und authentisch wiedergegeben.
  • Die KI kann komplexe Interaktionen und Dialoge zwischen bis zu drei verschiedenen Charakteren innerhalb einer einzigen Szene koordinieren. Sie weist jedem Sprecher eine individuelle Stimmfarbe zu und garantiert eine exakte Lippensynchronisation über den gesamten Verlauf.
  • Über die Sprache hinaus generiert das System auch passende diegetische Klänge wie Schritte, Umgebungsgeräusche oder Aufpralleffekte sowie Hintergrundmusik, die perfekt auf die visuelle Stimmung der Szene abgestimmt ist.

Die neu eingeführte Funktion „Intelligent Multi-Shot“ adressiert eine der bisher größten Herausforderungen bei der KI-gestützten Videoerstellung: den narrativen Fluss und den erzählerischen Zusammenhalt. Ersteller haben nun die Möglichkeit, kohärente Sequenzen mit einer Dauer von 15 Sekunden zu produzieren, die bis zu sechs individuelle Kameraschnitte beinhalten können.

Das System verfügt über ein tiefes Verständnis der filmischen Formsprache und erlaubt fließende Übergänge zwischen verschiedenen Einstellungsgrößen. Ob der Wechsel von einer weiten Totalen zu einer dramatischen Nahaufnahme oder die Umsetzung klassischer Techniken wie dem Schuss-Gegenschuss-Verfahren bei Dialogen – die Regiekontrolle bleibt über alle Schnitte hinweg präzise und intuitiv.

Eine besondere Stärke des Video 3.0 Omni Modells ist die konsequente Wahrung der Subjekt-Konsistenz. Über alle Kameraschnitte hinweg bleiben die Identität der Charaktere und die Details der Umgebung stabil. Es kommt nicht zu den bei generativen Modellen oft gefürchteten „Morphing“-Effekten oder dem Verlust definierender Merkmale, wenn sich die Perspektive oder der Kamerawinkel innerhalb einer Generierung ändert.

Auch im Bereich der statischen Bilder setzt Image 3.0 Omni neue Maßstäbe für professionelle Anforderungen. Das Modell unterstützt hochauflösende Ausgaben in 2K und 4K und zeigt eine beeindruckende Genauigkeit bei der Umsetzung komplexer Prompts. Besonders bei schwierigen Lichtverhältnissen und der Darstellung realistischer Oberflächenstrukturen zeigt die KI eine deutlich gesteigerte Leistungsfähigkeit.

Ein signifikanter Durchbruch gelang zudem bei der Darstellung von Texten innerhalb von Bildern und Videos. Ob Straßenschilder, Firmenlogos auf Kleidung oder Inhalte auf digitalen Bildschirmen – die Modelle rendern nun lesbare und korrekte Schriftzeichen. Dies beseitigt eine traditionelle Schwachstelle generativer Systeme und macht die Ergebnisse für kommerzielle Anwendungen wesentlich attraktiver.

Für die Videoproduktion garantiert Video 3.0 eine native 1080p-Auflösung mit einer hohen Stabilität der Bildrate. Dies führt zu flüssigen Bewegungsabläufen, die selbst bei schnellen und dynamischen Actionsequenzen nicht an Qualität verlieren. Damit erfüllt Kuaishou die hohen ästhetischen Ansprüche moderner Content-Produzenten und Filmemacher.

Der Zugang zu dieser neuen Technologie ist bereits für erste Nutzergruppen geöffnet. Kling 3.0 steht aktuell über einen exklusiven Early-Access-Zugang auf der Kling AI-Weboberfläche zur Verfügung. Für Entwickler und die professionelle Integration in Unternehmen sind die Modelle zudem über eine API des Drittanbieters Fal AI zugänglich, was eine flexible Einbindung in bestehende Produktions-Workflows ermöglicht.

12 Ansichten

Quellen

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

Haben Sie einen Fehler oder eine Ungenauigkeit festgestellt?Wir werden Ihre Kommentare so schnell wie möglich berücksichtigen.