Google 發表 Lyria 3：將 Gemini 打造為內建 AI 音樂製作工作室

17:29, 18 二月

作者： Veronika Radoslavskaya

iframe { display: none; }

Google 發表 Lyria 3：將 Gemini 打造為內建 AI 音樂製作工作室

Google DeepMind 於 2026 年 2 月 18 日正式宣布在全球推出其迄今為止最先進的音樂生成模型 Lyria 3。這項技術已正式脫離研究預覽階段，並全面整合至 Gemini 的網頁介面與行動應用程式中。這項重大更新有效地將這款 AI 聊天機器人轉型為一個功能完備的數位音樂製作中心，讓全球用戶都能輕鬆進行音樂創作。

iframe { display: none; }

Lyria 3 的核心優勢在於其強大的多模態處理能力，這使得音樂創作不再僅限於文字敘述。使用者現在可以上傳照片或影片，讓模型分析視覺影像中的節奏感與情緒基調。例如，當用戶上傳一段下雨街道的影片時，Lyria 3 能夠自動生成一段充滿氛圍感的低保真爵士樂，實現視覺與聽覺的完美融合。

除了旋律生成，Lyria 3 在人聲與歌詞創作上也取得了突破性進展。與早期的實驗版本不同，該模型現在具備撰寫歌詞並直接生成人聲演唱的能力。目前該系統已支援 8 種語言的高品質人聲輸出，包括英文、西班牙文、日文、韓文及印地文，而阿拉伯語的人聲功能目前也已進入測試階段供用戶體驗。

為了滿足專業與業餘創作者的需求，Google 在新介面中加入了更為精細的控制選項。使用者可以自由調整音樂的節拍速度、曲風類型以及樂器編制的「密度」。模型生成的每一段 30 秒高保真音訊片段，都可以透過系統進行無縫的延伸或循環處理，從而創作出更長篇幅的音樂作品。

在視覺呈現方面，Google 整合了內部代號為「Nano Banana」的最新圖像生成模型，該模型屬於 Gemini 2.5 Flash Image 系列。這套系統會自動解析生成音軌的歌詞意境與情感，為每一首創作曲目自動生成獨一無二且高品質的專輯封面，為創作者提供從聽覺到視覺的一站式服務。

在推動創新的同時，Google 也特別強調了對版權保護與藝術家權益的重視。Lyria 3 在訓練過程中嚴格遵守安全規範，並內建了「反模仿護欄」機制。這項技術會主動拒絕任何要求複製特定藝人風格的指令。例如，若有用戶嘗試要求製作「泰勒絲風格」的歌曲，系統僅會提取廣泛的創意元素作為靈感，而絕對不會複製藝人的真實嗓音或其標誌性的旋律架構。

為了確保內容的可追溯性，所有由 Lyria 3 產出的音訊都會嵌入 SynthID 數位浮水印。這是一種人耳無法辨識的隱形標記，即使音訊在後續經過壓縮、剪輯或重新混音，該浮水印依然能被偵測工具識別。這項技術確保了 AI 生成內容在傳播過程中，始終具備明確的身份標識，防止誤導或版權爭議。

這項強大的音樂創作功能已於今日起，正式向全球 18 歲以上的 Gemini 用戶開放。Google 此次的策略佈局顯然是為了直接挑戰 Suno 與 Udio 等市場現有的 AI 音樂服務。藉由將先進的創作工具深度整合進其龐大的生態系統中，Google 致力於將專業等級的音樂製作能力普及至全球大眾市場。