谷歌发布Veo 3.1模型:攻克“威尔·史密斯吃面”经典难题,音视频生成再达新境

编辑者: gaya ❤️ one

谷歌于2025年正式推出了其新一代人工智能驱动的视频生成模型Veo 3.1,此举标志着AI影像创作领域迈出了关键性的一步。该模型能够依据文本提示和视觉输入,生成高清晰度的动态影像,并实现了对音轨、角色对话以及环境音效的精准同步整合。Veo 3.1的发布,使其成功通过了业内公认的严苛挑战——“威尔·史密斯吃意大利面”测试,该测试曾于2023年暴露出现有人工智能在面部表情和复杂动作模拟方面的局限性。

Veo 3.1在技术上取得了显著飞跃,不仅能逼真地再现细微的面部表情变化,甚至连进食时产生的声响细节也得到了令人信服的模拟,这被视为内容制作流程中的一个重要突破。值得注意的是,谷歌正将Veo 3.1模型陆续部署至其视频编辑平台Flow、Gemini应用程序,以及Vertex AI平台和Gemini API接口,目前该模型处于预览阶段,仅在Gemini API的付费层级中可用,定价结构与Veo 3保持一致。自今年5月Flow上线以来,用户已在该应用上创作了超过2.75亿个视频。

尽管技术取得了显著进步,部分早期试用者反馈,模型所生成的音效在某些场景下仍略显机械化,缺乏完全的自然感。对此,谷歌采取了积极的应对策略,一方面,通过嵌入不可见的数字水印技术SynthID来标记AI生成内容,另一方面,明确地在内容上标注“Veo”字样,旨在引导公众正确认识数字媒体的演变,将技术迭代视为提升人类创造力的契机。

此次成就被视为人工智能视频制作领域的一座里程碑,然而,它也再次引发了关于深度伪造(Deepfakes)的社会讨论,以及数字创作与现实界限日益模糊的深层思考。当技术能够如此精妙地复刻现实时,对“所见即所得”的认知框架便受到了挑战,这促使社会各界需要更审慎地评估和适应这种新的信息环境。

从更广阔的视角来看,Veo 3.1的突破展现了人类对复杂模式理解和重构能力的延伸,推动着从静态图像到动态叙事的范式转移。这种能力的发展预示着未来内容创作的门槛将进一步降低,为更多拥有独特视角和故事的个体提供了前所未有的表达工具,要求我们以更开放的心态去接纳和引导这些强大的新工具,确保其发展方向能够服务于更深层次的沟通与共创。

来源

  • Webtekno

  • PetaPixel

  • South China Morning Post

  • Quartz

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。