Tencent Hunyuan 3D ra mắt Mô hình Thế giới 3D Tương tác Mã nguồn mở

Chỉnh sửa bởi: Veronika Radoslavskaya

Tencent đã chính thức giới thiệu Hunyuan 3D World Model 1.0, một mô hình AI mã nguồn mở, có khả năng tạo ra các thế giới 3D tương tác và có thể khám phá từ một đoạn văn bản hoặc hình ảnh. Được công bố tại Hội nghị Trí tuệ Nhân tạo Thế giới (WAIC) ở Thượng Hải, Trung Quốc vào ngày 26 tháng 7 năm 2025, đây là mô hình AI mã nguồn mở đầu tiên trong ngành có khả năng xây dựng các cảnh nhập vai, có thể điều hướng trên quy mô thế giới.

Hunyuan 3D World Model 1.0 có thể tạo ra một proxy toàn cảnh 360 độ từ một câu ngắn hoặc một bức ảnh, sau đó tái cấu trúc toàn cảnh đó thành một lưới 3D phân lớp, có thể điều hướng, cho phép người dùng đi lang thang trong môi trường và tương tác với các đối tượng. Kết quả là môi trường 3D tương tác, nhập vai được xây dựng trong vài giây.

Mô hình này được xây dựng trên kiến trúc đa giai đoạn có cấu trúc, kết hợp giữa tạo ảnh toàn cảnh với tái cấu trúc 3D phân lớp. Panorama-DiT, một mô hình biến đổi khuếch tán được đào tạo để tạo ra các chế độ xem toàn cảnh 360° độ phân giải cao dựa trên các lời nhắc văn bản hoặc hình ảnh tham chiếu, là cốt lõi của nó. Đầu ra toàn cảnh này hoạt động như một proxy trực quan cho toàn bộ cảnh, nắm bắt bố cục tổng thể, ánh sáng và vị trí đối tượng. Sau đó, mô hình áp dụng phân lớp ngữ nghĩa, chia nhỏ toàn cảnh thành các phần riêng biệt như bầu trời, địa hình và các yếu tố tiền cảnh. Sự phân đoạn này cho phép mỗi lớp được xử lý và tái cấu trúc riêng biệt, cho phép hình học chính xác hơn và vị trí đối tượng hợp lý. Tiếp theo, hệ thống thực hiện tái cấu trúc lưới phân cấp, bao gồm nhiều bước tinh chỉnh để chuyển đổi dữ liệu phân lớp thành lưới 3D mạch lạc. Quá trình này giải quyết các vấn đề phổ biến như nhiễu hình ảnh và hình học bị thiếu, dẫn đến môi trường mượt mà hơn, có thể đi bộ được.

Các cảnh 3D cuối cùng có thể được xuất sang các định dạng tiêu chuẩn tương thích với các công cụ mô phỏng và kết xuất phổ biến như Unity và Unreal Engine.

Hunyuan 3D kết hợp những điểm mạnh từ cả hai, sử dụng hình ảnh toàn cảnh làm proxy để kết nối các mô hình tạo 2D với tái cấu trúc 3D.

Các nhà phát triển trò chơi có thể nhanh chóng tạo mẫu các cảnh bằng cách chỉ cần nhập lời nhắc hoặc tải lên hình ảnh khái niệm. Lưới có thể xuất được cắm thẳng vào Unity, Unreal Engine hoặc các quy trình đồ họa tùy chỉnh. Các nền tảng VR và du lịch ảo có thể xây dựng các cảnh nhập vai để khám phá, đào tạo hoặc tiếp thị. Các nhà sáng tạo phim và hoạt hình có thể phác thảo môi trường nền mà không cần mô hình hóa thủ công. Các công cụ mô phỏng thời gian thực cho близнецов kỹ thuật số, mô phỏng robot hoặc đào tạo có thể tận dụng.

Tencent nhấn mạnh cả tốc độ và độ trung thực về mặt hình ảnh. Trình tạo toàn cảnh chạy nhanh và hệ thống tái cấu trúc xây dựng thế giới trong vài giây.

Mô hình này cho phép tạo ra các nội dung và tài sản 3D có độ phân giải cao từ các mô tả bằng văn bản và hình ảnh. Hunyuan 3D có thể tạo ra nhiều loại tài sản 3D khác nhau bao gồm các đối tượng, nhân vật và môi trường từ các mô tả văn bản đơn giản.

Phiên bản Hunyuan 3D-2.5 mới nhất có độ phân giải hình học tăng lên 1024 và tạo ra các mô hình 3D cực kỳ chi tiết phù hợp với các ngành như trò chơi điện tử, thực tế ảo và thương mại điện tử.

Nguồn

  • Exame

  • Tencent HuanYuan 3D World Model Officially Released and Open-Sourced

Bạn có phát hiện lỗi hoặc sai sót không?

Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.