Kuaishou lancia Kling AI 3.0: architettura multimodale unificata e audio nativo per una narrazione cinematografica
Modificato da: Veronika Radoslavskaya
Il 5 febbraio 2026, Kuaishou Technology ha presentato ufficialmente la nuova famiglia di modelli Kling 3.0, che include Video 3.0, Video 3.0 Omni, Image 3.0 e Image 3.0 Omni. Questo lancio rappresenta un cambiamento radicale nel panorama dell'intelligenza artificiale generativa, evolvendo dalla creazione di singole clip isolate verso un sistema integrato per la regia di scene narrative complesse e strutturate.
Una delle novità più rilevanti è l'introduzione delle funzionalità Native Audio, che elevano la qualità dei video prodotti da Kling 3.0 trasformandoli da sequenze mute in contenuti multimediali totalmente immersivi. Grazie a questa tecnologia, l'intelligenza artificiale non si limita a generare immagini in movimento, ma costruisce un intero ecosistema sonoro coerente con il contesto visivo.
Il supporto per il dialogo multilingue è stato notevolmente ampliato, includendo ora lingue come inglese, cinese, giapponese, coreano e spagnolo. Il sistema è in grado di gestire con estrema precisione le diverse sfumature linguistiche e gli accenti regionali, permettendo ad esempio di distinguere chiaramente tra una pronuncia britannica e una americana.
In termini di interazione tra i personaggi, Kling 3.0 permette di gestire dialoghi tra un massimo di tre figure distinte all'interno di una singola scena. Il modello è capace di tracciare ogni singolo interlocutore, assegnando timbri vocali unici e garantendo una sincronizzazione labiale perfetta, un traguardo tecnico che migliora drasticamente il realismo delle produzioni.
Oltre alla voce, il modello genera effetti sonori diegetici sincronizzati, come il rumore dei passi, i suoni ambientali o gli impatti fisici, che si integrano perfettamente con l'azione. A completare l'esperienza sonora vi sono le colonne sonore di sottofondo, progettate per allinearsi automaticamente al tono e all'atmosfera visiva della sequenza generata.
La funzionalità Intelligent Multi-Shot affronta una delle principali lacune nella creazione di video tramite AI: la continuità narrativa. Questo strumento consente ai creatori di sviluppare sequenze coese della durata di 15 secondi, strutturate attraverso un massimo di sei tagli di camera differenti, mantenendo una logica cinematografica costante.
Il controllo registico offerto dal sistema permette di utilizzare il linguaggio del cinema in modo intuitivo, facilitando transizioni fluide tra diversi tipi di inquadrature. È possibile passare da un campo lungo panoramico a un primo piano dettagliato, o alternare le angolazioni tra i parlanti seguendo la tecnica del campo-controcampo senza perdere il ritmo della scena.
Un aspetto fondamentale di Video 3.0 Omni è la capacità di preservare l'identità dei soggetti e degli ambienti attraverso i vari tagli di montaggio. I personaggi mantengono i propri tratti distintivi e non subiscono alterazioni visive o deformazioni quando la prospettiva della telecamera cambia, garantendo una coerenza visiva professionale.
Per quanto riguarda la fedeltà visiva, il modello Image 3.0 Omni è stato progettato per soddisfare standard qualitativi elevatissimi, supportando output in risoluzione 2K e 4K. Questo modello eccelle nell'aderenza ai prompt testuali, specialmente quando si tratta di gestire schemi di illuminazione complessi e texture estremamente realistiche.
Un miglioramento significativo riguarda la resa del testo all'interno delle immagini e dei video, un elemento storicamente difficile per i modelli generativi. In Kling 3.0, scritte su segnali stradali, loghi sull'abbigliamento o contenuti su schermi digitali appaiono nitidi e perfettamente leggibili, aumentando il grado di dettaglio complessivo.
Le prestazioni video di Video 3.0 garantiscono un output nativo a 1080p con una stabilità del frame rate superiore, assicurando movimenti fluidi e naturali. Questa caratteristica è particolarmente evidente nelle sequenze d'azione dinamiche, dove la fluidità visiva è essenziale per mantenere l'illusione della realtà.
Attualmente, la famiglia di modelli Kling 3.0 è disponibile in una fase di accesso anticipato esclusivo attraverso l'interfaccia web di Kling AI. Per quanto riguarda gli sviluppatori e le integrazioni aziendali, l'accesso ai modelli è garantito tramite API fornite dal partner di terze parti Fal AI.
12 Visualizzazioni
Fonti
TechBullion
PRNewswire
AI NEWS
NDTV
YouTube
Focal
Leggi altre notizie su questo argomento:
Hai trovato un errore o un'inaccuratezza?Esamineremo il tuo commento il prima possibile.