谷歌发布 Lyria 3:深度集成至 Gemini 的全能 AI 音乐创作工作室
作者: Veronika Radoslavskaya
2026年2月18日,谷歌 DeepMind 正式宣布在全球范围内推出其迄今为止最先进的音乐生成模型——Lyria 3。这一里程碑式的发布标志着该技术已超越了最初的研究预览阶段,通过 Gemini 网页版和移动应用程序直接面向全球用户开放。这一举措实际上将 Gemini 聊天机器人转型为一个功能完备的端到端音乐生产工作室,为创作者提供了前所未有的便利。
Lyria 3 在功能上较此前的实验版本实现了跨越式的提升,其核心亮点在于全新的多模态输入与人声合成能力。以下是该模型带来的几项重大技术突破:
- 多模态输入功能:用户现在不再受限于单一的文本描述。Lyria 3 能够深度解析用户上传的照片或视频内容,并根据视觉元素的节奏、色彩和情感氛围自动生成匹配的背景音乐。例如,当系统扫描一段细雨绵绵的都市街道视频时,它能精准捕捉其中的忧郁感,并创作出一段丝滑的低保真爵士乐(lo-fi jazz)。
- 歌词与人声生成:与早期迭代版本不同,Lyria 3 具备了自主编写歌词并进行高保真演唱的能力。目前,该模型已支持包括英语、西班牙语、日语、韩语和印地语在内的 8 种语言的人声生成,而阿拉伯语版本也已作为 Beta 测试版同步上线,极大地丰富了跨文化创作的可能性。
- 精细化创作控制:为了满足专业用户的需求,新界面引入了更为细致的控制参数。用户可以实时调节曲目的节拍速度(tempo)、流派风格以及配器的“密度”。系统生成的初始片段长度为 30 秒,且支持无缝的扩展与循环处理,确保音乐作品能够完美适配各种长度的视频内容。
为了给用户提供完整的视觉与听觉创作闭环,谷歌还将代号为“Nano Banana”的最新图像生成模型集成到了工作流中。作为 Gemini 2.5 Flash 图像家族的一员,该系统会自动分析生成歌曲的歌词意境和情感基调,并为每一首音乐作品量身定制独特的、高品质的专辑封面艺术图,实现了真正的全自动化创意产出。
在追求技术创新的同时,谷歌重申了对版权保护和艺术家安全的高度重视。Lyria 3 在开发过程中严格遵循了版权保护准则,并内置了多重安全护栏:
- 防模仿保护机制:该模型经过专门设计,能够识别并拒绝任何试图复制特定艺术家风格或声音的请求。如果用户输入类似“创作一首泰勒·斯威夫特风格的歌曲”的指令,系统仅会将此作为宽泛的创意启发,而绝不会克隆艺术家的真实嗓音或其标志性的旋律构造,从而保护了艺术家的知识产权。
- SynthID 水印技术:所有由 Lyria 3 生成的音频内容都嵌入了 SynthID 技术。这是一种肉耳无法察觉的数字水印,即使音频在后期经过压缩、剪辑或混音处理,该水印依然可以被检测工具识别。这一技术确保了 AI 生成的内容在传播过程中始终具有可追溯性,维护了数字生态的透明度。
目前,这项强大的音乐生成功能已开始向全球 18 岁及以上的 Gemini 用户陆续推送。谷歌将此次 Lyria 3 的发布定位为对 Suno 和 Udio 等新兴 AI 音乐服务商的直接竞争。凭借其深厚的生态系统集成优势和庞大的用户基础,谷歌正致力于将顶尖的 AI 音乐创作工具普及化,让每一位普通用户都能轻松开启自己的音乐创作之旅。
9 查看
来源
Google DeepMind
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?我们会尽快考虑您的意见。
