Google DeepMind Mở Quyền Truy Cập Sớm Có Giới Hạn Cho Nguyên Mẫu ‘Project Genie’
Chỉnh sửa bởi: Veronika Radoslavskaya
Vào ngày 29 tháng 1 năm 2026, Google DeepMind đã chính thức công bố việc triển khai quyền truy cập sớm có giới hạn cho Project Genie. Đây là một nguyên mẫu nghiên cứu mang tính thử nghiệm đột phá, hiện chỉ được cung cấp độc quyền cho những người dùng đăng ký gói Gemini Ultra tại thị trường Hoa Kỳ. Bản phát hành này cho phép người dùng không chỉ tạo ra mà còn trực tiếp khám phá các môi trường động được xây dựng hoàn toàn từ các câu lệnh văn bản hoặc hình ảnh tham chiếu ban đầu.
Về mặt kỹ thuật, Project Genie không đơn thuần là một ứng dụng đơn lẻ mà là một hệ thống phức hợp. Nó vận hành dựa trên sự tích hợp tinh vi của ba hệ thống trí tuệ nhân tạo riêng biệt, tạo nên một cấu trúc AI lai mạnh mẽ nhằm tối ưu hóa khả năng tương tác và hiển thị:
- Genie 3 (World Model): Đây là mô hình nền tảng của DeepMind với khả năng dự đoán khung hình tiếp theo trong một chuỗi video dựa trên dữ liệu đầu vào từ người dùng. Hệ thống này mô phỏng một môi trường nhất quán với các quy luật vật lý được đơn giản hóa để duy trì tính logic xuyên suốt không gian ảo.
- Nano Banana Pro: Một biến thể của mô hình hình ảnh được vận hành bởi Gemini, chịu trách nhiệm chuyển đổi các ý tưởng từ câu lệnh của người dùng thành các hình ảnh cơ sở chất lượng cao, làm nền tảng trực quan cần thiết để bắt đầu quá trình mô phỏng.
- Gemini (Orchestrator): Đóng vai trò là bộ não điều phối và suy luận cho mọi tương tác. Tác nhân này quản lý góc nhìn của camera cũng như các hành động của nhân vật, đảm bảo rằng quá trình điều hướng trong môi trường luôn phản hồi mượt mà và nhạy bén theo lệnh của người dùng.
Khác với các công cụ phát triển trò chơi 3D truyền thống dựa trên việc dựng hình đa giác phức tạp, Project Genie tạo ra các môi trường luồng video tương tác. Hệ thống này sản sinh một dòng khung hình liên tục trong thời gian thực, phản ứng trực tiếp với các thao tác điều khiển, mang đến một trải nghiệm khám phá độc đáo, mang hơi hướng của những giấc mơ kỹ thuật số đầy sống động.
Trong giai đoạn thử nghiệm hiện tại, công cụ này vẫn đang hoạt động dưới những ràng buộc kỹ thuật khắt khe để đảm bảo tính ổn định của hệ thống. Các phiên tương tác hiện bị giới hạn nghiêm ngặt ở mức tối đa 60 giây cho mỗi lần trải nghiệm, do việc tạo hình video trong thời gian thực đòi hỏi cường độ tính toán cực kỳ lớn từ hệ thống máy chủ của Google.
Về các thông số hiển thị và hiệu suất, các môi trường ảo được kết xuất ở độ phân giải 720p với tốc độ khung hình ổn định ở mức 24 FPS. Một điểm đáng chú ý là tính năng "remixing", cho phép người dùng tùy biến các kết quả đã được tạo ra trước đó. Thông qua tính năng này, người dùng có thể thay đổi phong cách nghệ thuật hoặc điều chỉnh các quy tắc môi trường của một thế giới ảo đã hình thành một cách linh hoạt.
Shlomi Fruchter, Giám đốc Nghiên cứu tại DeepMind, cho biết nguyên mẫu này được thiết kế để khai phá những khả năng tương tác mới lạ mà các phương pháp dựng hình đồ họa thông thường không thể thực hiện được. Mục tiêu chiến lược của đợt thử nghiệm công khai này là thu thập một lượng lớn dữ liệu huấn luyện thực tế nhằm tinh chỉnh cách các mô hình thế giới hiểu về vật lý và logic không gian.
Đây được coi là một bước tiến quan trọng trong lộ trình phát triển các tác nhân AI hiện thân (embodied AI) an toàn và thông minh hơn. Những cải tiến từ Project Genie sẽ đóng góp trực tiếp vào việc hoàn thiện công nghệ robot và các hệ thống mô phỏng phức tạp, giúp trí tuệ nhân tạo có thể hiểu và tương tác hiệu quả hơn với môi trường vật lý trong tương lai.
15 Lượt xem
Nguồn
Cadena 3 Argentina
The Tech Buzz
The Tech Buzz
Android Authority
The Tech Buzz
Google DeepMind: The Podcast
Đọc thêm tin tức về chủ đề này:
Bạn có phát hiện lỗi hoặc sai sót không?Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.
