介绍 SAM Audio:用于音频分离的第一款统一多模态模型 | AI at Meta
音乐迎来“显微镜”时代:Meta SAM Audio开启听觉新纪元
作者: Inna Horoshkina One
我们置身于一个浩瀚的声音海洋之中。无论是现场音乐会中人声、吉他、观众的欢呼与回响,还是播客里的人声、空调声、脚步声和翻纸声,乃至社交媒体上看似“安静”的短视频,都充斥着无数细微的声音事件。
然而,在2025年12月,一个足以被视为文明新音符的转折点出现了:Meta正式发布了SAM Audio。这项技术并非遵循旧有规则来“消除噪音”,而是提供了一种更符合人类自然思维的方式来分离和提取声音——例如,它能精准识别并分离出“这个特定的人声”、“那把吉他”、“那声狗吠”、“这次的碎裂声”或“这个片段”。
开创性的统一方法
SAM Audio被誉为首个实现此类“统一”处理方法的工具。它集成了一套工具,能够应对多种不同的提示方式:
- 文本提示(Text prompt):用户输入“人声”、“吉他”或“交通噪音”等描述,模型即可提取出相应的音轨层次。
- 视觉提示(Visual prompt):如果处理的是视频内容,用户可以直接指向视频中的特定对象(比如某个人),模型会努力分离与其相关的声音。
- 时间跨度提示(Span prompt):用户可以标记音频流中某个特定时间段,要求模型在后续的音轨中继续定位并提取该声音。
听起来似乎很简单,但这正是其精髓所在。过去,音频分离(Audio Separation)往往需要针对每项任务准备一套独立的工具集。而SAM Audio则提出了一个宏伟的愿景:构建一个统一的基础平台,服务于海量应用场景。
技术落地的佐证
Meta并未将SAM Audio仅仅作为一个概念进行宣传,而是以研究性发布的形式推出。项目页面和相关论文均标注了日期——2025年12月16日。更重要的是,该模型已以开放权重(包括“large”版本)的形式提供,并附带了可供演示的示例。
对音乐领域的深远影响
这项技术最引人入胜之处,远不止于“简化剪辑工作”(尽管这确实会发生)。关键在于,它正在音乐领域催生一种全新的听觉素养:
- 创作与学习音乐家现在可以像审阅乐谱一样,将录音“分层解析”,细致聆听演奏的起音、音色和乐句处理的细微差别,从而实现更精准的学习和改进。
- 档案、修复与文化记忆许多老旧录音中,音乐往往与特定时代的背景噪音混杂在一起。现在,我们有了机会在不“扼杀”现场生命力的情况下,精细地凸显核心内容。
- 影视、播客与报道在声音处理曾是瓶颈的领域,工作效率将大大提高:例如,从嘈杂的人群中精准提取对话,消除重复的背景噪音,或仅保留某一种乐器声。
- 科学研究与声音生态学如果模型能够“提取”特定的声学事件,这对生物声学研究也极具潜力。在复杂的野外录音中(常受风声、船只或人类活动背景音干扰),它能有效分离出特定动物的信号或环境声。
必须正视的伦理考量
诚然,如此强大的工具可能会引人产生“从别人的歌曲中提取人声”的冲动。但在健康的文化生态中,坚守边界至关重要:创作者必须坚持使用自己的素材、获得授权的材料或合规的音轨片段,以尊重版权和艺术家的劳动成果。(技术赋予创作者力量,但不能取代信任的基础。)
声音正变得多模态化
极具象征意义的是,就在SAM Audio发布的同时,Meta在智能眼镜Ray-Ban/Oakley Meta的更新中也展示了另一项“音乐变异”:“对话聚焦”(Conversation Focus)功能(增强嘈杂环境中的语音),以及与Spotify的深度集成,允许用户“根据所见”或专辑封面来点播音乐。这表明,声音正以前所未有的方式与我们的视觉体验和所处环境紧密相连。
本次事件为本周的声音增添了什么?
这次发布带来的,不仅是一个新工具,更是一种全新的听觉语法——即从“消除噪音”向“提取意义”的根本性转变。
本周,文明仿佛获得了一个新的音色:听觉不再是被动的接收,而变成了主动的意图。我们正在学习的,是如何在音乐、语音乃至自然之声中,审慎地分离出最重要的部分。而这里的核心音准,在于伦理:技术增强了创造力,但其根基在于信任、版权和对生命之声的尊重。
因为我们虽有众多个体,但我们是一个整体:一个音乐厅,一座城市,一片声音的海洋——而我们拥有了更多清晰地相互聆听的方式。
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。
