Veo 3.1 của Google: Bước Tiến Vượt Bậc Trong Nghệ Thuật Tạo Video AI, Vượt Qua Thử Thách 'Will Smith Ăn Mì Ý' Khét Tiếng

Chỉnh sửa bởi: gaya ❤️ one

Trong năm 2025, Google đã chính thức giới thiệu mô hình tạo video bằng trí tuệ nhân tạo mới nhất của mình, Veo 3.1, đánh dấu một cột mốc quan trọng trong lĩnh vực sản xuất nội dung số. Nền tảng này có khả năng kiến tạo các đoạn phim có độ phân giải cao từ các chỉ dẫn bằng văn bản và hình ảnh tham chiếu. Điểm nổi bật là khả năng đồng bộ hóa một cách tinh vi giữa âm thanh, lời thoại và hiệu ứng âm thanh đi kèm, cho thấy sự chuyển đổi về khả năng nhận thức của máy móc đối với sự phức tạp của hành vi con người.

Veo 3.1 đã thành công vượt qua bài kiểm tra không chính thức nổi tiếng trong cộng đồng AI: thử thách 'Will Smith ăn mì Ý'. Kịch bản này, vốn từng bộc lộ những hạn chế nghiêm trọng về biểu cảm khuôn mặt và chuyển động cơ thể của các mô hình AI vào năm 2023, nay đã được mô hình mới xử lý một cách xuất sắc. Chi tiết như sắc thái biểu cảm trên gương mặt và cả âm thanh nhai nuốt đều được mô phỏng lại một cách chân thực. Thử thách này, xuất phát từ một video lan truyền vào tháng 3 năm 2023 do người dùng Reddit /u/chaindrop tạo ra, đã trở thành một thước đo văn hóa để đánh giá độ chân thực và tính nhất quán của video AI.

Sự tiến bộ từ phiên bản đầu tiên 'kinh dị' đến khả năng tái tạo thuyết phục của Veo 3.1 cho thấy một bước nhảy vọt đáng kinh ngạc về mặt kỹ thuật. Tuy nhiên, ngay cả với những thành tựu vượt trội này, một số người dùng vẫn ghi nhận rằng các hiệu ứng âm thanh tổng thể đôi khi vẫn mang lại cảm giác hơi 'nhân tạo', một dấu hiệu cho thấy ngay cả những thành tựu công nghệ cao cũng vẫn còn những khía cạnh cần được tinh chỉnh.

Để đảm bảo sự minh bạch và trách nhiệm trong kỷ nguyên nội dung tổng hợp, Google đang tích hợp các biện pháp bảo vệ nghiêm ngặt. Mô hình này được trang bị các hình mờ vô hình, được gọi là SynthID, để đánh dấu nội dung do AI tạo ra, đồng thời gắn nhãn rõ ràng bằng từ khóa 'Veo'. Công nghệ SynthID, do Google DeepMind phát triển, nhúng một dấu hiệu kỹ thuật số không thể nhận thấy bằng mắt thường vào hình ảnh, âm thanh, văn bản hoặc video, giúp phân biệt giữa sản phẩm sáng tạo của con người và máy móc.

Khả năng đồng bộ hóa âm thanh và lời thoại một cách phong phú, cùng với các công cụ sáng tạo mới như khả năng hướng dẫn quá trình tạo bằng hình ảnh tham chiếu để duy trì tính nhất quán về nhân vật và phong cách, là một sự mở rộng đáng kể của Veo 3.1. Đây là một bước tiến lớn, không chỉ là một màn trình diễn công nghệ mà còn là một lời mời gọi cộng đồng sáng tạo nhìn nhận lại cách thức kiến tạo câu chuyện của mình, biến những ý tưởng phức tạp nhất thành hiện thực thị giác một cách dễ dàng hơn. Sự phát triển này đặt ra câu hỏi về ranh giới ngày càng mờ nhạt giữa thực tại và sự sáng tạo kỹ thuật số, đồng thời nhấn mạnh tầm quan trọng của việc xác thực nguồn gốc thông tin.

Nguồn

  • Webtekno

  • PetaPixel

  • South China Morning Post

  • Quartz

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.