Google DeepMind发布Genie 3:开启实时交互式3D世界新纪元

编辑者: Olga Sukhina

2025年8月5日,Google DeepMind宣布推出Genie 3,一款能够根据文本提示生成高度逼真且可交互的3D环境的AI模型。Genie 3标志着人工智能在模拟和虚拟世界创建领域迈出了重要一步,为训练更高级的AI代理和探索沉浸式体验开辟了新的可能性。

Genie 3的核心能力在于其能够实时生成动态的3D世界,并支持用户在其中进行导航和互动。与前代模型Genie 2相比,Genie 3在交互时间和视觉一致性方面有了显著提升。Genie 2仅能生成数十秒的短时交互场景,而Genie 3则能提供数分钟的连续交互体验,并在720p分辨率下以每秒24帧的速度运行。该模型还具备“可提示的世界事件”功能,允许用户通过简单的文本指令实时修改环境,例如改变天气或引入新元素,从而极大地增强了交互性和可玩性。

Google DeepMind的研究总监Shlomi Fruchter将Genie 3描述为“首个实时交互式通用世界模型”。他强调,该模型通过其自回归生成机制,能够保持环境的连贯性,即使在用户离开一段时间后返回,场景中的物体和细节也能保持一致,这得益于其长达一分钟的视觉记忆能力。这种对环境的持久记忆和实时响应能力,使得Genie 3能够创造出更接近真实世界的沉浸式体验。

Genie 3的应用潜力巨大,尤其是在AI代理的训练方面。通过在高度逼真且可控的模拟环境中进行“试错”学习,AI代理能够更有效地掌握复杂任务和应对未知情况。这被视为通往通用人工智能(AGI)的关键一步。此外,Genie 3在教育、游戏开发、机器人技术以及虚拟原型设计等领域也展现出广阔的应用前景,能够为学习者提供身临其境的体验,为开发者提供更便捷的创作工具。

目前,Genie 3仍处于有限的研究预览阶段,仅对部分研究人员和创作者开放。Google DeepMind正在此阶段仔细评估其潜在风险并制定相应的安全措施。尽管存在一些技术限制,例如对真实世界地理位置的精确模拟能力尚待提高,以及多主体交互的复杂性仍需优化,但Genie 3的发布无疑为人工智能的未来发展描绘了激动人心的蓝图,预示着一个更加智能和互联的数字世界的到来。

来源

  • Webrazzi

  • India Today

  • SiliconANGLE

  • TechCrunch

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。