Kuaishou Luncurkan Kling AI 3.0: Arsitektur Multimodal Terpadu dengan Audio Native yang Revolusioner
Diedit oleh: Veronika Radoslavskaya
Pada tanggal 5 Februari 2026, Kuaishou Technology secara resmi memperkenalkan keluarga model Kling 3.0 yang sangat dinantikan oleh industri kreatif global. Rangkaian inovasi ini mencakup empat model utama, yaitu Video 3.0, Video 3.0 Omni, Image 3.0, serta Image 3.0 Omni. Peluncuran ini menandai pergeseran fundamental dalam teknologi kecerdasan buatan, di mana fokus kini beralih dari sekadar menghasilkan klip video terisolasi menjadi penyediaan perangkat lengkap untuk menyutradarai adegan naratif yang kompleks.
Salah satu lompatan terbesar dalam pembaruan ini adalah peningkatan kemampuan Native Audio pada Kling 3.0 yang sangat canggih. Fitur ini mengubah video AI yang sebelumnya hanya berupa putaran visual bisu menjadi konten yang sepenuhnya imersif dan hidup. Dengan integrasi audio yang menyatu secara organik, pengalaman menonton menjadi jauh lebih realistis dan profesional bagi para pengguna.
Model Kling 3.0 kini mendukung pembuatan ucapan atau dialog dalam berbagai bahasa internasional, termasuk Inggris, Mandarin, Jepang, Korea, dan Spanyol. Keunggulannya tidak hanya terletak pada penguasaan bahasa, tetapi juga pada penanganan nuansa berbagai aksen yang sangat mendetail. Sebagai contoh, sistem ini mampu membedakan secara halus antara dialek bahasa Inggris Britania dan Amerika.
Dalam hal interaksi karakter yang kompleks, AI ini mampu mengatur dialog antara hingga tiga karakter berbeda dalam satu adegan tunggal secara bersamaan. Sistem secara otomatis melacak setiap pembicara dan memberikan warna suara atau timbre yang unik untuk masing-masing individu. Hal ini memastikan bahwa setiap karakter memiliki identitas suara yang konsisten sepanjang durasi video.
Selain pengaturan suara, Kling 3.0 menjamin sinkronisasi bibir atau lip-sync yang sangat presisi agar gerakan mulut selaras dengan kata-kata yang diucapkan. Detail teknis ini sangat krusial untuk menghindari efek lembah aneh (uncanny valley) yang sering ditemukan pada konten buatan AI sebelumnya, sehingga hasil akhirnya terlihat jauh lebih alami.
Kemampuan audio ini juga mencakup pembuatan suara diegetik yang sinkron dengan aksi visual di layar. Model ini dapat menghasilkan efek suara lingkungan seperti langkah kaki, bunyi benturan, hingga kebisingan latar belakang yang sesuai. Selain itu, sistem dapat menyusun skor musik latar yang secara otomatis selaras dengan suasana atau mood visual yang ditampilkan.
Fitur Intelligent Multi-Shot hadir untuk mengatasi tantangan kritis dalam pembuatan video AI, yaitu menjaga alur narasi yang berkesinambungan. Melalui fitur ini, kreator dapat menghasilkan urutan video kohesif berdurasi 15 detik yang mencakup hingga enam potongan kamera yang berbeda. Hal ini memungkinkan penceritaan yang lebih dinamis dalam satu kali proses pembuatan.
Kecerdasan buatan ini kini memiliki pemahaman yang mendalam terhadap bahasa sinematik profesional. Hal ini memungkinkan terjadinya transisi yang mulus antar berbagai jenis bidikan kamera. Pengguna dapat dengan mudah mengatur perpindahan dari bidikan lebar (establishing shot) ke bidikan jarak dekat (close-up) yang intens, atau menggunakan teknik shot-reverse-shot saat dua karakter sedang berinteraksi.
Kekuatan utama dari model Video 3.0 Omni terletak pada kemampuannya yang luar biasa dalam menjaga identitas karakter dan lingkungan di seluruh potongan kamera tersebut. Subjek dalam video tidak akan mengalami perubahan bentuk atau kehilangan fitur khasnya saat sudut kamera berubah. Konsistensi visual ini memastikan bahwa integritas narasi tetap terjaga dari awal hingga akhir video.
Kemampuan visual juga telah disempurnakan untuk memenuhi standar industri profesional melalui model Image 3.0 Omni. Model yang dirancang khusus untuk menghasilkan visual statis kelas atas ini mendukung output resolusi tinggi mulai dari 2K hingga 4K. Kepatuhan terhadap perintah teks atau prompt adherence juga meningkat tajam, terutama dalam menangani skenario pencahayaan yang rumit.
Model-model terbaru ini juga menunjukkan kemajuan signifikan dalam merender teks yang dapat dibaca dengan jelas di dalam gambar maupun video. Hal ini mencakup detail pada papan tanda jalan, logo pada pakaian, hingga informasi yang tertera di layar perangkat elektronik. Kemampuan ini sebelumnya merupakan titik kelemahan utama bagi sebagian besar model generatif di pasar.
Untuk performa video, model Video 3.0 menghadirkan output native 1080p dengan stabilitas frame rate yang sangat tinggi. Hal ini memastikan bahwa setiap gerakan dalam video tetap lancar dan halus, bahkan dalam adegan aksi yang sangat dinamis atau cepat. Kualitas visual yang dihasilkan kini setara dengan standar produksi konten digital modern.
Saat ini, Kling 3.0 sudah tersedia melalui akses awal eksklusif bagi para pengguna yang menggunakan antarmuka web resmi Kling AI. Pengguna dapat mengeksplorasi berbagai fitur baru ini untuk menciptakan konten yang lebih kreatif dan naratif dengan bantuan teknologi kecerdasan buatan terbaru dari Kuaishou Technology.
Bagi para pengembang aplikasi dan kebutuhan integrasi skala perusahaan, model-model canggih ini juga dapat diakses melalui API. Layanan API ini disediakan melalui kemitraan dengan penyedia pihak ketiga, Fal AI, yang memungkinkan integrasi teknologi Kling 3.0 ke dalam berbagai platform dan alur kerja profesional secara lebih luas.
12 Tampilan
Sumber-sumber
TechBullion
PRNewswire
AI NEWS
NDTV
YouTube
Focal
Baca lebih banyak berita tentang topik ini:
Apakah Anda menemukan kesalahan atau ketidakakuratan?Kami akan mempertimbangkan komentar Anda sesegera mungkin.