Google DeepMind 啟動「Project Genie」原型限量測試:開啟生成式互動環境新紀元
编辑者: Veronika Radoslavskaya
Google DeepMind 於 2026 年 1 月 29 日正式宣佈,針對美國地區的 Gemini Ultra 訂閱用戶,開放其實驗性研究原型「Project Genie」的限量早期存取權限。這項創新的發佈讓使用者能夠僅憑藉文字指令或參考圖像,便能生成並探索完全動態的虛擬環境,標誌著人工智慧生成內容從靜態影像邁向動態互動空間的重大里程碑。
在技術層面上,Project Genie 展現了尖端的混合式 AI 架構。該系統並非依賴單一模型,而是透過三個各司其職的 AI 系統進行深度整合,以確保生成環境的連貫性與互動的即時性。這種協同運作模式代表了當前多模態模型應用的最高水準。
- Genie 3 (世界模型):這是 DeepMind 的核心基礎模型,專門負責預測影片序列的下一幀畫面。它能模擬出具備簡化物理規律的連貫環境,讓虛擬世界的動態變化符合基本的邏輯認知。
- Nano Banana Pro:這是一款基於 Gemini 技術的影像模型變體。其主要職責是將使用者的初始提示詞轉化為高品質的視覺基準,為後續的模擬過程奠定精緻的畫面基礎。
- Gemini (協調器):作為整個系統的推理引擎,該代理程式負責管理攝影機視角與角色動作。它確保了導航過程能對使用者指令做出靈敏反應,提升了整體的互動體驗。
與傳統的 3D 遊戲引擎本質不同,Project Genie 所創造的是「互動式影片流環境」。系統會根據控制輸入即時生成連續的畫面流,提供一種獨特且帶有夢幻感的探索體驗。這種技術跳脫了預先建模的限制,讓使用者彷彿置身於一個由 AI 即時編織的數位夢境中。
由於即時生成技術對運算資源的需求極高,目前該工具在實驗階段仍設有嚴格的技術限制。為了維持系統的穩定性與運算效率,開發團隊對現有的原型功能進行了特定的範疇界定,以確保測試過程的流暢性。
- 對話時限:由於即時生成的運算強度極大,每次互動階段被嚴格限制在 60 秒以內。
- 效能表現:目前的環境渲染規格固定為 720p 解析度,並以每秒 24 幀 (FPS) 的速率運行。
- 重混功能 (Remixing):使用者可利用「重混」特色來修改已生成的內容,進而改變既有世界的藝術風格或環境規則,增加創作的靈活性。
DeepMind 研究總監 Shlomi Fruchter 指出,此原型的目標在於揭示傳統渲染方法無法實現的獨特互動能力。透過這次公開測試,團隊旨在收集大量的訓練數據,以精進世界模型對物理規律與空間邏輯的理解,這對於建構更智能的數位環境至關重要。
這一發展被視為邁向開發更安全「具身人工智慧」(Embodied AI) 代理的關鍵一步。這些技術未來將應用於機器人領域及複雜的模擬系統中,讓 AI 能夠在現實或虛擬的物理空間中進行更精確且安全的決策與行動,為未來的科技應用奠定基礎。
15 浏览量
來源
Cadena 3 Argentina
The Tech Buzz
The Tech Buzz
Android Authority
The Tech Buzz
Google DeepMind: The Podcast
閱讀更多有關此主題的新聞:
发现错误或不准确的地方吗?我们会尽快处理您的评论。
