Представляємо SAM Audio: Перша уніфікована мультимодальна модель для розділення аудіо | AI at Meta
Музика отримала «мікроскоп»: SAM Audio від Meta та нова ера сприйняття звуку
Автор: Inna Horoshkina One
Ми постійно перебуваємо у звуковому океані. Концертний запис – це потужний прибій: вокал, гітара, вигуки, відлуння, вуличний шум, дихання аудиторії. Подкаст – це течії: голос ведучого, гудіння кондиціонера, кроки, шелест паперу. Навіть найпростіший ролик у соціальних мережах – це цілий рій мікроподій.
І ось, у грудні 2025 року, відбулася подія, що звучить як нова нота в історії цивілізації: компанія Meta представила модель SAM Audio. Ця розробка пропонує не просто «очищення шуму» за застарілими правилами, а здатність виокремлювати звуки так, як ми сприймаємо їх інтуїтивно: «ось цей голос», «ось ця гітара», «ось той гавкіт», «ось цей хрускіт», «ось цей конкретний фрагмент».
Відкриття: Уніфікований підхід
SAM Audio позиціонується як перший «уніфікований» інструмент такого роду. Його унікальність полягає в тому, що він працює з різними типами підказок, використовуючи єдину архітектуру:
- Текстовий запит (Text prompt): Ви просто вводите запит на кшталт «співочий голос» / «гітара» / «шум транспорту», і модель витягує потрібний звуковий шар.
- Візуальний запит (Visual prompt): Якщо обробляється відео, ви можете вказати певний об’єкт (наприклад, людину), і система намагатиметься виділити саме її звук.
- Фрагментарний запит (Span prompt): Користувач виділяє часовий відрізок, де присутній потрібний звук, і просить модель «знайти це» на всій аудіодоріжці.
Це звучить просто, і саме в цій простоті криється революція. Якщо раніше аудіосепарація вимагала «набору окремих інструментів» для кожної специфічної задачі, то тепер заявлено ідею єдиного фундаменту для вирішення безлічі сценаріїв.
Докази та доступність
Meta представила SAM Audio не лише як анонс, а як повноцінний дослідницький реліз. Публікація та сторінка проєкту датовані 16 грудня 2025 року. Важливо, що модель уже доступна у вигляді відкритих чекпойнтів (включно з версією “large”) та демонстраційних матеріалів для громадськості.
Наслідки для музичної індустрії
Найбільш захоплюючим є не те, що «монтаж стане простішим» (хоча це так), а те, що навколо музики формується нова аудіограмотність:
- Створення та навчанняМузиканти зможуть детально розбирати запис «по шарах», немов читаючи партитуру. Це дозволить їм чути найдрібніші нюанси атаки, тембру та фразировки, що значно покращить якість навчання та власної роботи.
- Архіви, реставрація, культурна спадщинаСтарі записи часто містять музику, «запечатану» шумами певної епохи. Тепер з’являється реальний шанс акуратно підсвітити головне, не «вбиваючи» при цьому живе дихання оригіналу.
- Кіно, подкасти, репортажіРобота там, де звук традиційно був «пляшковим горлечком», значно прискориться. Наприклад, можна буде легко виокремити мову з гучного натовпу, усунути повторюваний фоновий шум або залишити лише один необхідний інструмент.
- Наука та екологія звукуЯкщо модель здатна «витягувати» конкретні акустичні події, це має величезний потенціал для біоакустики: виділення сигналів тварин чи природних явищ зі складних польових записів, де постійно заважає вітер, рух транспорту чи людський фон.
Етичні межі
Звісно, такий потужний інструмент може спокусити на спроби «витягти вокал із чужого треку». Однак у живій культурній спільноті критично важливо дотримуватися меж: використовувати власні записи, ліцензійний контент або дозволені стем-файли, поважаючи авторські права та працю митців. Технологія розширює можливості творця, але не скасовує довіри.
Звук стає багатомодальним
Символічно, що саме в ці дні Meta представила й іншу «музичну мутацію» – оновлення для своїх розумних окулярів Ray-Ban/Oakley Meta. Функції Conversation Focus (посилення мовлення у шумі) та інтеграція зі Spotify, що дозволяє «подивитися і попросити» увімкнути музику «під вигляд» чи за обкладинкою альбому, свідчать про те, що звук дедалі тісніше пов’язується з тим, що ми бачимо і де перебуваємо.
Що це додало до звучання тижня?
Ця подія збагатила «звучання тижня» не просто новим інструментом, а новою граматикою слуху – це перехід від загального «прибрати шум» до конкретного «виділити сенс».
Цього тижня цивілізація, здається, отримала новий тембр: слух перестав бути пасивним і перетворився на свідоме намір. Ми вчимося не просто «чути все», а дбайливо виокремлювати головне – чи то в музиці, чи то в розмові, чи то в голосах природи. І тут наш головний орієнтир – етика: технологія підсилює творця, але тримається на довірі, авторському праві та повазі до живого.
Бо нас багато, але ми ЄДИНІ: єдиний зал, єдине місто, єдиний океан звуку – і щоразу більше способів чути одне одного чіткіше.
Читайте більше новин на цю тему:
Знайшли помилку чи неточність?
Ми розглянемо ваші коментарі якомога швидше.
