谷歌发布Veo 3.1模型：攻克“威尔·史密斯吃面”经典难题，音视频生成再达新境

13:39, 16 十月

编辑者： gaya ❤️ one

谷歌于2025年正式推出了其新一代人工智能驱动的视频生成模型Veo 3.1，此举标志着AI影像创作领域迈出了关键性的一步。该模型能够依据文本提示和视觉输入，生成高清晰度的动态影像，并实现了对音轨、角色对话以及环境音效的精准同步整合。Veo 3.1的发布，使其成功通过了业内公认的严苛挑战——“威尔·史密斯吃意大利面”测试，该测试曾于2023年暴露出现有人工智能在面部表情和复杂动作模拟方面的局限性。

Veo 3.1在技术上取得了显著飞跃，不仅能逼真地再现细微的面部表情变化，甚至连进食时产生的声响细节也得到了令人信服的模拟，这被视为内容制作流程中的一个重要突破。值得注意的是，谷歌正将Veo 3.1模型陆续部署至其视频编辑平台Flow、Gemini应用程序，以及Vertex AI平台和Gemini API接口，目前该模型处于预览阶段，仅在Gemini API的付费层级中可用，定价结构与Veo 3保持一致。自今年5月Flow上线以来，用户已在该应用上创作了超过2.75亿个视频。

尽管技术取得了显著进步，部分早期试用者反馈，模型所生成的音效在某些场景下仍略显机械化，缺乏完全的自然感。对此，谷歌采取了积极的应对策略，一方面，通过嵌入不可见的数字水印技术SynthID来标记AI生成内容，另一方面，明确地在内容上标注“Veo”字样，旨在引导公众正确认识数字媒体的演变，将技术迭代视为提升人类创造力的契机。

此次成就被视为人工智能视频制作领域的一座里程碑，然而，它也再次引发了关于深度伪造（Deepfakes）的社会讨论，以及数字创作与现实界限日益模糊的深层思考。当技术能够如此精妙地复刻现实时，对“所见即所得”的认知框架便受到了挑战，这促使社会各界需要更审慎地评估和适应这种新的信息环境。

从更广阔的视角来看，Veo 3.1的突破展现了人类对复杂模式理解和重构能力的延伸，推动着从静态图像到动态叙事的范式转移。这种能力的发展预示着未来内容创作的门槛将进一步降低，为更多拥有独特视角和故事的个体提供了前所未有的表达工具，要求我们以更开放的心态去接纳和引导这些强大的新工具，确保其发展方向能够服务于更深层次的沟通与共创。

来源

Webtekno
PetaPixel
South China Morning Post
Quartz

通知中心

通知中心

谷歌发布Veo 3.1模型：攻克“威尔·史密斯吃面”经典难题，音视频生成再达新境

来源

阅读更多关于该主题的新闻：