Google DeepMind 發布 Genie 3:AI 從文字提示生成互動式 3D 世界

编辑者: Olga Sukhina

Google DeepMind 於 2025 年 8 月 5 日發表了其最新的 AI 模型 Genie 3,這項突破性技術能夠根據簡單的文字描述,即時生成高度互動且逼真的 3D 環境。此模型不僅能以 720p 的解析度、每秒 24 格的流暢度呈現虛擬世界,更重要的是,它能維持數分鐘的環境一致性,讓使用者能夠進行長時間的探索與互動,這標誌著 AI 在模擬與虛擬實境領域的一大躍進。

Genie 3 的核心能力在於其「可提示的世界事件」功能,使用者可以在虛擬世界生成後,即時修改環境設定,例如改變天氣狀況、引入新的角色或物件,而模型會動態模擬物理定律與行為反應。此項技術的發展,建立在 Google DeepMind 長期以來在模擬環境領域的研究基礎之上,包括先前推出的 Genie 1 和 Genie 2 模型,它們為 AI 代理(agents)的訓練提供了基礎,但 Genie 3 在即時互動性和環境連貫性上實現了顯著的提升,使其更接近於真實世界的模擬體驗。

此項技術的潛在應用範圍極為廣泛,橫跨遊戲開發、教育、科學研究乃至於 AI 代理的訓練。遊戲開發者能夠以前所未有的速度原型化遊戲場景,創造出能夠隨玩家行為而演變的動態世界。在教育領域,Genie 3 可以建構沉浸式的學習體驗,讓學生能夠在互動式環境中探索歷史事件、科學概念或複雜的地理景觀。此外,對於需要 AI 系統在複雜環境中學習和適應的領域,例如機器人技術和自動駕駛汽車的訓練,Genie 3 提供了一個安全且可無限擴展的虛擬訓練場,這被視為邁向通用人工智能(AGI)的重要一步。

Genie 3 的運作原理是基於一種自迴歸(autoregressive)的渲染管線,它在生成每一幀畫面時都會考量到先前所有動作的軌跡,這使得模型能夠在使用者回溯或修改場景時保持空間和時間上的連貫性。儘管如此,該模型目前仍有一些限制,例如環境一致性持續時間為數分鐘而非數小時,對於特定真實世界地點的重現能力有限,且在文字渲染方面尚有挑戰。目前,Genie 3 僅以有限的研究預覽形式提供給部分學術界和創作者。

來源

  • Tom's Guide

  • Google DeepMind's Official Announcement on Genie 3

  • India Today's Coverage on Genie 3

  • The Times of India's Article on Genie 3

  • PC Gamer's Report on Genie 3

  • Google DeepMind's LinkedIn Post on Genie 3

发现错误或不准确的地方吗?

我们会尽快处理您的评论。