谷歌发布 Lyria 3：深度集成至 Gemini 的全能 AI 音乐创作工作室

17:29, 18 二月

作者： Veronika Radoslavskaya

iframe { display: none; }

谷歌发布 Lyria 3：深度集成至 Gemini 的全能 AI 音乐创作工作室

2026年2月18日，谷歌 DeepMind 正式宣布在全球范围内推出其迄今为止最先进的音乐生成模型——Lyria 3。这一里程碑式的发布标志着该技术已超越了最初的研究预览阶段，通过 Gemini 网页版和移动应用程序直接面向全球用户开放。这一举措实际上将 Gemini 聊天机器人转型为一个功能完备的端到端音乐生产工作室，为创作者提供了前所未有的便利。

iframe { display: none; }

Lyria 3 在功能上较此前的实验版本实现了跨越式的提升，其核心亮点在于全新的多模态输入与人声合成能力。以下是该模型带来的几项重大技术突破：

多模态输入功能：用户现在不再受限于单一的文本描述。Lyria 3 能够深度解析用户上传的照片或视频内容，并根据视觉元素的节奏、色彩和情感氛围自动生成匹配的背景音乐。例如，当系统扫描一段细雨绵绵的都市街道视频时，它能精准捕捉其中的忧郁感，并创作出一段丝滑的低保真爵士乐（lo-fi jazz）。
歌词与人声生成：与早期迭代版本不同，Lyria 3 具备了自主编写歌词并进行高保真演唱的能力。目前，该模型已支持包括英语、西班牙语、日语、韩语和印地语在内的 8 种语言的人声生成，而阿拉伯语版本也已作为 Beta 测试版同步上线，极大地丰富了跨文化创作的可能性。
精细化创作控制：为了满足专业用户的需求，新界面引入了更为细致的控制参数。用户可以实时调节曲目的节拍速度（tempo）、流派风格以及配器的“密度”。系统生成的初始片段长度为 30 秒，且支持无缝的扩展与循环处理，确保音乐作品能够完美适配各种长度的视频内容。

为了给用户提供完整的视觉与听觉创作闭环，谷歌还将代号为“Nano Banana”的最新图像生成模型集成到了工作流中。作为 Gemini 2.5 Flash 图像家族的一员，该系统会自动分析生成歌曲的歌词意境和情感基调，并为每一首音乐作品量身定制独特的、高品质的专辑封面艺术图，实现了真正的全自动化创意产出。

在追求技术创新的同时，谷歌重申了对版权保护和艺术家安全的高度重视。Lyria 3 在开发过程中严格遵循了版权保护准则，并内置了多重安全护栏：

防模仿保护机制：该模型经过专门设计，能够识别并拒绝任何试图复制特定艺术家风格或声音的请求。如果用户输入类似“创作一首泰勒·斯威夫特风格的歌曲”的指令，系统仅会将此作为宽泛的创意启发，而绝不会克隆艺术家的真实嗓音或其标志性的旋律构造，从而保护了艺术家的知识产权。
SynthID 水印技术：所有由 Lyria 3 生成的音频内容都嵌入了 SynthID 技术。这是一种肉耳无法察觉的数字水印，即使音频在后期经过压缩、剪辑或混音处理，该水印依然可以被检测工具识别。这一技术确保了 AI 生成的内容在传播过程中始终具有可追溯性，维护了数字生态的透明度。

目前，这项强大的音乐生成功能已开始向全球 18 岁及以上的 Gemini 用户陆续推送。谷歌将此次 Lyria 3 的发布定位为对 Suno 和 Udio 等新兴 AI 音乐服务商的直接竞争。凭借其深厚的生态系统集成优势和庞大的用户基础，谷歌正致力于将顶尖的 AI 音乐创作工具普及化，让每一位普通用户都能轻松开启自己的音乐创作之旅。