音樂迎來「顯微鏡」時代:Meta SAM Audio 重新定義聽覺體驗

作者: Inna Horoshkina One

介紹 SAM Audio:用於音頻分離的第一款統一多模態模型 | AI at Meta

我們身處於一個聲音的汪洋大海之中。無論是現場音樂會中,人聲、吉他、觀眾的喧嘩與迴音交織成的浪潮;或是播客節目裡,講話聲、空調、腳步聲與紙張摩擦聲組成的細流;即便是社群媒體上看似「安靜」的短片,也充滿了無數微小的聲音事件。

然而,在 2025 年 12 月,一項足以標誌著文明新樂章的轉折點出現了:Meta 正式發布了 SAM Audio 模型。這項技術的突破點不在於傳統意義上的「降噪」,而是能以我們自然思考的方式來精準分離聲音元素,例如:「這段人聲」、「那把吉他」、「某處的狗叫聲」、「某物的碎裂聲」,或是「這個特定片段」

開創性的統一方法

SAM Audio 被譽為首個採取「統一化」處理方法的音訊模型。它透過單一工具,就能應對多種不同的提示方式,展現出極大的靈活性:

  • 文字提示 (Text prompt):使用者輸入「歌唱人聲」、「吉他」或「交通噪音」,模型便能提取出相應的音軌層次。
  • 視覺提示 (Visual prompt):若處理的是影片內容,使用者可以直接指向畫面中的特定物體(例如某個人),模型會盡力分離該物體所發出的聲音。
  • 時間範圍提示 (Span prompt):使用者選定音訊軌中某個特定時間段,要求模型在後續的音軌中尋找並分離出相同的聲音內容。

聽起來或許簡單,但這正是其核心價值所在。過去的音訊分離技術往往需要針對不同任務準備一套獨立的工具集,但 SAM Audio 則提出了一個基礎架構,能夠服務於廣泛的應用場景。

實質的驗證與發布

Meta 並非僅以概念性公告來推出 SAM Audio,而是以研究發布的形式呈現。該項目的公開文件與專屬頁面均標註日期為 2025 年 12 月 16 日。更重要的是,該模型已以開放權重(包含「大型」版本)的形式提供,並附帶了實用的演示範例,證明了其可操作性。

對音樂產業的深遠影響

此技術最引人入勝之處,遠超乎「讓剪輯工作更輕鬆」(儘管這的確會發生)。關鍵在於,音樂領域正在形成一種全新的音訊素養

  1. 創作與學習的革新:音樂家現在可以像解讀樂譜一樣,將錄音「分層」拆解,仔細聆聽音色的細微差別、攻擊性(Attack)和樂句的處理,從而進行更精準的學習與模仿。
  2. 檔案修復與文化傳承:老舊錄音往往將音樂與時代的雜訊緊密地封存在一起。現在有了機會,可以在不「扼殺」原始生命力與現場氛圍的前提下,精確地凸顯核心的音樂內容。
  3. 影視、播客與報導製作:在聲音處理曾是瓶頸的領域,效率將大幅提升。例如,從嘈雜的人群中提取清晰的人聲,消除重複性的背景噪音,或僅保留單一樂器聲。
  4. 科學研究與環境聲學:如果模型能夠「提取」特定的聲學事件,這對生物聲學領域也極具潛力。在複雜的野外錄音中(如風聲、船隻、人類活動背景音),科學家可以更有效地分離出動物的訊號或環境的特定聲音。

不可忽視的倫理考量

誠然,這類強大的工具可能會讓人產生「從別人的歌曲中提取人聲」的衝動。但在健康的文化生態中,我們必須堅守界線:務必使用自己的素材、已獲授權的材料,或允許公開的音軌片段,以尊重版權和藝術家的辛勤付出。(科技賦予創作者力量,但不能取代信任與尊重。)

聲音正變得更加多模態。極具象徵意義的是,就在 SAM Audio 發布的同期,Meta 在 Ray-Ban/Oakley Meta 智慧眼鏡的更新中,也展示了另一項「音樂變異」:「對話聚焦」(Conversation Focus) 功能(強化嘈雜環境中的語音),以及與 Spotify 的整合,允許使用者「根據所見」或專輯封面來點播音樂。這表明聲音正與我們的視覺體驗和所處環境緊密連結。

這項事件為本週的聽覺景觀增添了什麼?

這次發布帶來的,不僅僅是一個新工具,而是一種全新的聽覺語法——從過去的「消除雜訊」轉變為「提取意義」。本週,文明彷彿獲得了一個新的音色:聽覺不再是單純的被動接收,而是成為一種主動的意圖。我們正在學習的,是如何在音樂、語音和自然之聲中,有意識地分離出最重要的部分。而我們最重要的校音器,始終是倫理:科技強化了創作者,但其根基在於信任、版權和對生命的尊重。

因為我們眾多,但我們是一體:同一個音樂廳、同一座城市、同一片聲音的海洋——而我們擁有更多清晰地相互聆聽的方式。

15 浏览量

发现错误或不准确的地方吗?

我们会尽快处理您的评论。