Google DeepMind 开启“Project Genie”原型限量早期访问

19:21, 29 一月

编辑者： Veronika Radoslavskaya

iframe { display: none; }

Google DeepMind 开启“Project Genie”原型限量早期访问

2026年1月29日，Google DeepMind 官方宣布正式开启“Project Genie”的限量早期访问。这一实验性的研究原型目前仅面向美国境内的 Gemini Ultra 订阅用户开放。通过这一创新平台，用户能够仅凭文字提示词或参考图片，生成并亲身探索完全动态的虚拟环境，开启了生成式 AI 交互的新篇章。

iframe { display: none; }

Project Genie 的技术核心建立在一种先进的混合 AI 架构之上，由三个各司其职的系统共同驱动。其中，Genie 3 作为“世界模型”（World Model），是 DeepMind 的核心基础模型。它通过预测视频序列的后续帧来模拟具有简化物理特性的连贯环境，确保了虚拟世界在视觉和逻辑上的统一性。

在图像生成与逻辑调度方面，系统集成了 Nano Banana Pro 和 Gemini 引擎。Nano Banana Pro 是一款基于 Gemini 的图像模型变体，负责将用户的初始创意转化为高质量的视觉基准。而 Gemini 则充当“协调者”角色，作为推理引擎管理摄像机视角与角色行为，确保用户的导航指令能够得到即时且精准的反馈。

与传统的 3D 游戏引擎机制不同，Project Genie 创造的是交互式视频流环境。该系统能够根据用户的控制输入，实时生成连续的图像流。这种独特的生成方式为用户提供了一种如梦似幻的探索体验，模糊了预渲染内容与实时交互之间的界限。

在目前的实验阶段，为了应对实时生成带来的巨大计算压力，该工具设定了明确的技术约束。单次交互会话的上限被严格控制在 60 秒。在性能表现方面，环境以 720p 的分辨率和每秒 24 帧（FPS）的速率进行渲染，以在视觉质量与处理速度之间取得平衡。

此外，Project Genie 还配备了极具创意的“重混”（Remixing）功能。用户可以对已生成的环境进行修改，通过调整艺术风格或重新设定环境规则，赋予既有世界全新的面貌。这一功能不仅增强了用户的参与感，也为内容创作提供了无限的变体可能。

DeepMind 研究总监 Shlomi Fruchter 表示，该原型旨在揭示传统渲染技术无法实现的交互潜力。此次公开测试的主要战略目标是收集广泛的训练数据，从而优化世界模型对物理法则和空间逻辑的认知。这一研究对于开发更安全的具身人工智能（Embodied AI）至关重要，将直接推动机器人技术及复杂模拟系统的未来发展。

Google DeepMind