Google 發表 Lyria 3:將 Gemini 打造為內建 AI 音樂製作工作室

作者: Veronika Radoslavskaya

Google DeepMind 於 2026 年 2 月 18 日正式宣布在全球推出其迄今為止最先進的音樂生成模型 Lyria 3。這項技術已正式脫離研究預覽階段,並全面整合至 Gemini 的網頁介面與行動應用程式中。這項重大更新有效地將這款 AI 聊天機器人轉型為一個功能完備的數位音樂製作中心,讓全球用戶都能輕鬆進行音樂創作。

Lyria 3 的核心優勢在於其強大的多模態處理能力,這使得音樂創作不再僅限於文字敘述。使用者現在可以上傳照片或影片,讓模型分析視覺影像中的節奏感與情緒基調。例如,當用戶上傳一段下雨街道的影片時,Lyria 3 能夠自動生成一段充滿氛圍感的低保真爵士樂,實現視覺與聽覺的完美融合。

除了旋律生成,Lyria 3 在人聲與歌詞創作上也取得了突破性進展。與早期的實驗版本不同,該模型現在具備撰寫歌詞並直接生成人聲演唱的能力。目前該系統已支援 8 種語言的高品質人聲輸出,包括英文、西班牙文、日文、韓文及印地文,而阿拉伯語的人聲功能目前也已進入測試階段供用戶體驗。

為了滿足專業與業餘創作者的需求,Google 在新介面中加入了更為精細的控制選項。使用者可以自由調整音樂的節拍速度、曲風類型以及樂器編制的「密度」。模型生成的每一段 30 秒高保真音訊片段,都可以透過系統進行無縫的延伸或循環處理,從而創作出更長篇幅的音樂作品。

在視覺呈現方面,Google 整合了內部代號為「Nano Banana」的最新圖像生成模型,該模型屬於 Gemini 2.5 Flash Image 系列。這套系統會自動解析生成音軌的歌詞意境與情感,為每一首創作曲目自動生成獨一無二且高品質的專輯封面,為創作者提供從聽覺到視覺的一站式服務。

在推動創新的同時,Google 也特別強調了對版權保護與藝術家權益的重視。Lyria 3 在訓練過程中嚴格遵守安全規範,並內建了「反模仿護欄」機制。這項技術會主動拒絕任何要求複製特定藝人風格的指令。例如,若有用戶嘗試要求製作「泰勒絲風格」的歌曲,系統僅會提取廣泛的創意元素作為靈感,而絕對不會複製藝人的真實嗓音或其標誌性的旋律架構。

為了確保內容的可追溯性,所有由 Lyria 3 產出的音訊都會嵌入 SynthID 數位浮水印。這是一種人耳無法辨識的隱形標記,即使音訊在後續經過壓縮、剪輯或重新混音,該浮水印依然能被偵測工具識別。這項技術確保了 AI 生成內容在傳播過程中,始終具備明確的身份標識,防止誤導或版權爭議。

這項強大的音樂創作功能已於今日起,正式向全球 18 歲以上的 Gemini 用戶開放。Google 此次的策略佈局顯然是為了直接挑戰 Suno 與 Udio 等市場現有的 AI 音樂服務。藉由將先進的創作工具深度整合進其龐大的生態系統中,Google 致力於將專業等級的音樂製作能力普及至全球大眾市場。

9 浏览量

來源

  • Google DeepMind

发现错误或不准确的地方吗?我们会尽快处理您的评论。