Музыка получила «микроскоп»: SAM Audio и новая эпоха слышания

12:17, 22 декабря

Автор: Inna Horoshkina One

Представляем SAM Audio: первую унифицированную мультимодальную модель для отделения аудио | AI at Meta

Мы давно живём в океане звука. Концертная запись — это прибой: вокал, гитара, крики, эхо, шум улицы, дыхание зала. Подкаст — это течения: голос, кондиционер, шаги, шорох бумаги. Даже “тихий” ролик в соцсетях — это рой микрособытий.

И вот в декабре 2025 случился поворот, который звучит как новая нота цивилизации: Meta выпустила SAM Audio — модель, которая предлагает не “чистить шум” по старым правилам, а выделять звуки так, как мы думаем о них естественно: “вот этот голос”, “эта гитара”, “этот лай”, “этот хруст”, “вот этот кусочек”.

Открытие

SAM Audio называют первым “унифицированным” подходом такого типа: один инструмент, который работает с разными способами подсказки:

Text prompt: пишешь “singing voice” / “guitar” / “traffic noise” — и вытаскиваешь нужный слой.
Visual prompt: если это видео — указываешь объект (например, человека), и модель стремится выделить его звук.
Span prompt: выделяешь фрагмент времени, где есть нужный звук, и просишь модель “найти это” дальше по дорожке.

Звучит просто — и в этом смысл. Если раньше аудиосепарация была “набором отдельных инструментов” под каждую задачу, то здесь заявлена идея одного фундамента для множества сценариев.

Доказательства

Meta вывела SAM Audio не только как анонс, но как исследовательский релиз: публикация и страница проекта датированы 16 декабря 2025, плюс модель доступна в виде открытых чекпойнтов (включая “large”) и демонстраций.

Последствия для музыки

Самое интересное здесь — не “монтаж станет проще” (хотя станет), а то, что вокруг музыки появляется новая грамотность:

Создание и обучениеМузыкант сможет разбирать запись “по слоям”, как партитуру: услышать нюансы атаки, тембра, фразировки — и учиться точнее.
Архивы, реставрация, культурная памятьСтарые записи часто хранят музыку вместе с шумом эпохи. Теперь появляется шанс аккуратно подсветить главное, не “убивая” живое дыхание.
Кино, подкасты, репортажиУскоряется работа там, где звук был бутылочным горлышком: вытащить речь из толпы, убрать повторяющийся шум, оставить один инструмент.
Наука и экология звукаЕсли модель умеет “вынимать” конкретные акустические события, это потенциально полезно и для биоакустики: выделять сигналы животных/среды в сложных полевых записях (там, где всегда мешают ветер, лодки, человеческий фон).

Очень важная этика

Да, такой инструмент может соблазнять “достать вокал из чужого трека”. Но в живой культуре важно держать границы: использовать свои записи, лицензированный материал или разрешённые стемы, уважая авторские права и труд артистов. (Технология усиливает творца — но не отменяет доверие.)

Звук становится многомодальным

И символично, что ровно в эти дни в новостях всплыла ещё одна “музыкальная мутация” от Meta — обновления для умных очков Ray-Ban/Oakley Meta:
Conversation Focus (усиление речи в шуме) и интеграция со Spotify, где можно “посмотреть и попросить” включить музыку “под вид” или по обложке альбома. То есть звук всё сильнее связывается с тем, что мы видим и где мы находимся.

Что это событие добавило в звучание недели?

Это событие добавило в «звучание недели» не просто новый инструмент, а новую грамматику слуха — переход от «убрать шум» к «выделить смысл».

На этой неделе цивилизация как будто получила новый тембр: слух перестал быть пассивным и стал намерением. Мы учимся не просто “слышать всё”, а бережно выделять главное — и в музыке, и в речи, и в голосах природы. И тут наш главный камертон — этика: технология усиливает творца, но держится на доверии, авторском праве и уважении к живому.
Потому что нас много, но мы ОДНО: один зал, один город, один океан звука — и всё больше способов слышать друг друга яснее.