Kling Video O1 Ra Mắt: Mô Hình Đa Năng Đầu Tiên Trên Thế Giới Cho Việc Tạo Và Chỉnh Sửa Video Bằng Văn Bản
Chỉnh sửa bởi: Veronika Radoslavskaya
Lĩnh vực video trí tuệ nhân tạo (AI) vừa trải qua một bước chuyển mình lớn với sự ra mắt của Kling Video O1 (tên đầy đủ là Omni One). Đây là một mô hình nền tảng mạnh mẽ, được định vị là công cụ đa phương thức hợp nhất đầu tiên trên thế giới, phục vụ cả việc tạo video và chỉnh sửa nâng cao. Được phát triển bởi Kuaishou, mô hình này đã phá vỡ sự phân mảnh trước đây trong quy trình sáng tạo, loại bỏ nhu cầu người dùng phải chuyển đổi liên tục giữa các công cụ riêng biệt cho khâu sản xuất, biên tập và hoàn thiện.
Thành tựu công nghệ cốt lõi của O1 nằm ở khả năng tiếp nhận một tổ hợp đầu vào phức tạp—bao gồm các câu lệnh văn bản, nhiều hình ảnh tham chiếu (lên đến bảy ảnh), và các đoạn video—tất cả trong một quy trình làm việc liền mạch. Động cơ đa phương thức hợp nhất này cho phép người sáng tạo xuất ra các cảnh quay chất lượng cao 1080p, sau đó áp dụng ngay các chỉnh sửa hậu kỳ chỉ bằng các câu lệnh ngôn ngữ tự nhiên. Giờ đây, người dùng có thể nhập các yêu cầu như “xóa người qua đường ở hậu cảnh,” “chuyển cảnh từ ban ngày sang hoàng hôn,” hoặc “thay đổi trang phục của nhân vật chính,” và mô hình sẽ thấu hiểu ngữ cảnh hình ảnh để thực hiện các thay đổi đó một cách chính xác.
Kling Video O1 giải quyết những thách thức lâu đời trong ngành, đặc biệt là vấn đề nhất quán về mặt hình ảnh. Nó được thiết kế để duy trì sự nhất quán về nhân vật và phong cách vượt trội qua các chuỗi cảnh quay dài và các chuyển động máy quay phức tạp, hoạt động như một đạo diễn thực thụ để ngăn chặn hiện tượng “trôi dạt” hình ảnh hay các lỗi nhấp nháy không mong muốn. Hơn nữa, mô hình cung cấp khả năng kiểm soát chi tiết thông qua các tính năng như điều khiển Khung hình Bắt đầu và Kết thúc (Start and End Frame control), cho phép biên tập viên xác định chính xác điểm bắt đầu và kết thúc của một cảnh quay, từ đó tạo điều kiện cho các chuyển cảnh mượt mà và hoạt ảnh hóa các hình ảnh tĩnh một cách chính xác.
Mặc dù các đoạn clip cơ bản thường chỉ kéo dài khoảng 5 đến 10 giây, kiến trúc của O1 hỗ trợ tạo ra các đoạn tường thuật dài hơn và mạch lạc hơn, với các báo cáo cho thấy khả năng mở rộng độ dài lên tới hai phút. Đây là một bước tiến đáng kể so với các giới hạn trước đây, giúp các nhà làm phim kể chuyện dễ dàng hơn.
Về mặt kỹ thuật, các điểm mạnh nổi bật bao gồm hệ thống suy luận Chuỗi Tư duy (Chain-of-Thought - CoT) nhằm nâng cao khả năng phân tích câu lệnh và hiểu biết về vật lý, cùng với kết quả đánh giá hiệu suất vượt trội so với các đối thủ cạnh tranh như Google Veo 3.1 và Runway Aleph trong các tác vụ biến đổi phức tạp. Bằng cách kết hợp bảy khả năng sáng tạo chủ chốt—từ chuyển văn bản thành video cho đến mở rộng và chỉnh sửa cảnh quay—Kling Video O1 đang thiết lập một tiêu chuẩn mới về hiệu suất chuyên nghiệp, đảm bảo chất lượng và sự đồng nhất cao từ ý tưởng ban đầu cho đến bản dựng cuối cùng.
13 Lượt xem
Nguồn
מגזין גאדג'טים וטכנולוגיה - Gadgety.co.il | גאדג'טי
Kling's Video O1 launches as the first all-in-one video model for generation and editing
Kling AI Launches O1, the Industry's First Unified Multimodal Video Model, Revolutionizing Content Creation and Editing - Barchart.com
Kling AI releases unified video model - Kr Asia
'Nano Banana' of AI Video: Chinese platform Kling AI Launches O1 AI Video Editing Model
Creativity AI #52: Runway claims the top spot, Kling goes multimodal, and Midjourney rethinks its UI - Medium
Đọc thêm tin tức về chủ đề này:
Bạn có phát hiện lỗi hoặc sai sót không?
Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.
