Google DeepMind 开启“Project Genie”原型限量早期访问

编辑者: Veronika Radoslavskaya

2026年1月29日,Google DeepMind 官方宣布正式开启“Project Genie”的限量早期访问。这一实验性的研究原型目前仅面向美国境内的 Gemini Ultra 订阅用户开放。通过这一创新平台,用户能够仅凭文字提示词或参考图片,生成并亲身探索完全动态的虚拟环境,开启了生成式 AI 交互的新篇章。

Project Genie 的技术核心建立在一种先进的混合 AI 架构之上,由三个各司其职的系统共同驱动。其中,Genie 3 作为“世界模型”(World Model),是 DeepMind 的核心基础模型。它通过预测视频序列的后续帧来模拟具有简化物理特性的连贯环境,确保了虚拟世界在视觉和逻辑上的统一性。

在图像生成与逻辑调度方面,系统集成了 Nano Banana Pro 和 Gemini 引擎。Nano Banana Pro 是一款基于 Gemini 的图像模型变体,负责将用户的初始创意转化为高质量的视觉基准。而 Gemini 则充当“协调者”角色,作为推理引擎管理摄像机视角与角色行为,确保用户的导航指令能够得到即时且精准的反馈。

与传统的 3D 游戏引擎机制不同,Project Genie 创造的是交互式视频流环境。该系统能够根据用户的控制输入,实时生成连续的图像流。这种独特的生成方式为用户提供了一种如梦似幻的探索体验,模糊了预渲染内容与实时交互之间的界限。

在目前的实验阶段,为了应对实时生成带来的巨大计算压力,该工具设定了明确的技术约束。单次交互会话的上限被严格控制在 60 秒。在性能表现方面,环境以 720p 的分辨率和每秒 24 帧(FPS)的速率进行渲染,以在视觉质量与处理速度之间取得平衡。

此外,Project Genie 还配备了极具创意的“重混”(Remixing)功能。用户可以对已生成的环境进行修改,通过调整艺术风格或重新设定环境规则,赋予既有世界全新的面貌。这一功能不仅增强了用户的参与感,也为内容创作提供了无限的变体可能。

DeepMind 研究总监 Shlomi Fruchter 表示,该原型旨在揭示传统渲染技术无法实现的交互潜力。此次公开测试的主要战略目标是收集广泛的训练数据,从而优化世界模型对物理法则和空间逻辑的认知。这一研究对于开发更安全的具身人工智能(Embodied AI)至关重要,将直接推动机器人技术及复杂模拟系统的未来发展。

15 查看

来源

  • Cadena 3 Argentina

  • The Tech Buzz

  • The Tech Buzz

  • Android Authority

  • The Tech Buzz

  • Google DeepMind: The Podcast

你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。