Kuaishou Ra Mắt Kling AI 3.0: Bước Ngoặt Với Kiến Trúc Đa Phương Thức Thống Nhất và Âm Thanh Bản Địa

Chỉnh sửa bởi: Veronika Radoslavskaya

Vào ngày 5 tháng 2 năm 2026, Kuaishou Technology đã chính thức công bố dòng mô hình Kling 3.0 thế hệ mới, bao gồm các phiên bản Video 3.0, Video 3.0 Omni, Image 3.0 và Image 3.0 Omni. Sự kiện này đánh dấu một bước chuyển mình quan trọng, đưa công nghệ AI từ việc tạo ra các đoạn clip ngắn lẻ tẻ trở thành một bộ công cụ toàn diện, hỗ trợ đạo diễn những phân cảnh có tính tự sự và cấu trúc phức tạp.

Điểm đột phá lớn nhất của Kling 3.0 nằm ở khả năng xử lý âm thanh bản địa (Native Audio) vượt trội. Công nghệ này giúp nâng tầm các video do AI tạo ra từ những hình ảnh chuyển động không lời thành những nội dung có chiều sâu và sống động, mang lại trải nghiệm nhập vai hoàn toàn cho người xem.

Hệ thống mới hỗ trợ tạo giọng nói đa ngôn ngữ một cách tự nhiên, bao gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn và tiếng Tây Ban Nha. Đáng chú ý, mô hình có khả năng xử lý các sắc thái giọng địa phương cực kỳ tinh tế, chẳng hạn như phân biệt rõ ràng giữa giọng Anh Anh và Anh Mỹ, giúp nội dung trở nên gần gũi hơn với từng thị trường mục tiêu.

Về khả năng tương tác, Kling 3.0 có thể điều phối lời thoại giữa tối đa ba nhân vật khác nhau trong cùng một cảnh quay. Trí tuệ nhân tạo sẽ tự động theo dõi từng người nói, gán các âm sắc giọng nói riêng biệt và đảm bảo sự đồng bộ hóa giữa khẩu hình miệng với âm thanh (lip-sync) đạt độ chính xác cao nhất.

Không chỉ dừng lại ở ngôn ngữ, mô hình còn có khả năng tạo ra các hiệu ứng âm thanh thực tế (diegetic sound) như tiếng bước chân, tiếng va chạm hay tiếng ồn môi trường xung quanh. Những âm thanh này, cùng với nhạc nền, được thiết kế để hòa quyện hoàn hảo với diễn biến thị giác và tâm trạng của cảnh quay.

Tính năng Đa khung hình thông minh (Intelligent Multi-Shot) là một lời giải cho bài toán về dòng chảy câu chuyện trong video AI. Giờ đây, các nhà sáng tạo nội dung có thể tạo ra một chuỗi trình tự dài 15 giây bao gồm tối đa sáu lần cắt cảnh khác nhau mà vẫn giữ được sự liền mạch.

Kling 3.0 thể hiện sự am hiểu sâu sắc về ngôn ngữ điện ảnh, cho phép chuyển đổi linh hoạt giữa các góc máy khác nhau. Người dùng có thể dễ dàng chuyển từ một cảnh toàn cảnh rộng để thiết lập không gian sang một cảnh cận chiến đầy biểu cảm, hoặc thay đổi góc nhìn giữa các nhân vật đang đối thoại theo phong cách shot-reverse-shot chuyên nghiệp.

Một ưu điểm cốt lõi của mô hình Video 3.0 Omni là khả năng duy trì tính nhất quán tuyệt đối về nhân vật và bối cảnh qua các lần cắt cảnh. Các đối tượng trong video không còn gặp hiện tượng biến dạng hay thay đổi đặc điểm nhận dạng khi góc máy chuyển động, một thách thức lớn mà các công nghệ trước đây thường gặp phải.

Về mặt chất lượng hình ảnh, Image 3.0 Omni được tối ưu hóa cho các sản phẩm tĩnh cao cấp với khả năng xuất hình ảnh độ phân giải 2K và 4K. Mô hình này cho thấy khả năng tuân thủ câu lệnh (prompt) một cách xuất sắc, đặc biệt là trong việc tái hiện các thiết lập ánh sáng phức tạp và kết cấu bề mặt chân thực như đời thực.

Khả năng hiển thị văn bản cũng là một điểm sáng khi Kling 3.0 có thể tái tạo rõ nét các chữ viết trên biển báo đường phố, logo trên quần áo hay màn hình điện tử. Đối với video, phiên bản 3.0 cung cấp chất lượng 1080p với tốc độ khung hình ổn định, đảm bảo các cảnh hành động diễn ra mượt mà và không bị nhòe mờ.

Hiện tại, người dùng có thể trải nghiệm Kling 3.0 thông qua chương trình truy cập sớm trên giao diện web chính thức. Đối với các nhà phát triển và đối tác doanh nghiệp, các mô hình này cũng đã được cung cấp dưới dạng API thông qua đơn vị thứ ba là Fal AI, mở ra cơ hội tích hợp rộng rãi vào các quy trình sản xuất nội dung số chuyên nghiệp.

12 Lượt xem

Nguồn

  • TechBullion

  • PRNewswire

  • AI NEWS

  • NDTV

  • YouTube

  • Focal

Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.