Memperkenalkan SAM Audio: Model multimodal terpadu pertama untuk pemisahan audio | AI at Meta
Musik Mendapat 'Mikroskop': SAM Audio dan Era Baru Pendengaran
Penulis: Inna Horoshkina One
Kita telah lama hidup dalam samudra suara. Rekaman konser adalah deburan ombak: vokal, gitar, teriakan penonton, gema, bising jalanan, napas audiens. Podcast adalah arus: suara narator, dengung AC, langkah kaki, gemerisik kertas. Bahkan video 'tenang' di media sosial pun merupakan kumpulan mikro-peristiwa.
Kemudian, pada Desember 2025, terjadi sebuah titik balik yang terdengar seperti nada baru peradaban: Meta merilis SAM Audio. Model ini tidak bertujuan 'membersihkan kebisingan' berdasarkan aturan lama, melainkan mengisolasi suara sebagaimana kita memikirkannya secara alami: 'ini suaranya', 'ini gitarnya', 'ini gonggongan itu', 'ini renyahannya', 'ini bagian ini'.
Penemuan
SAM Audio disebut sebagai pendekatan 'terpadu' pertama semacam ini: satu alat yang dapat bekerja dengan berbagai jenis petunjuk:
- Petunjuk Teks: Anda mengetik 'suara nyanyian' / 'gitar' / 'suara lalu lintas' — dan mengekstrak lapisan yang diinginkan.
- Petunjuk Visual: Jika itu adalah video, Anda menunjuk objek (misalnya, seseorang), dan model berusaha menyoroti suara yang berasal darinya.
- Petunjuk Rentang Waktu (Span Prompt): Anda menandai segmen waktu di mana suara yang diinginkan berada, dan meminta model untuk 'menemukannya' di bagian rekaman lainnya.
Kedengarannya sederhana—dan memang itulah intinya. Jika sebelumnya pemisahan audio adalah 'kumpulan alat terpisah' untuk setiap tugas, kini ada gagasan tentang satu fondasi tunggal untuk berbagai skenario.
Pembuktian
Meta tidak hanya mengumumkan SAM Audio sebagai sekadar kabar angin, melainkan sebagai rilis penelitian. Publikasi dan halaman proyeknya tertanggal 16 Desember 2025, ditambah lagi model ini tersedia dalam bentuk checkpoint terbuka (termasuk versi 'large') serta demonstrasi yang bisa dicoba.
Implikasi bagi Musik
Bagian paling menarik di sini bukanlah 'pengeditan akan menjadi lebih mudah' (meskipun itu pasti terjadi), melainkan bahwa literasi baru sedang muncul di sekitar musik:
- Penciptaan dan PembelajaranMusisi kini dapat membedah rekaman 'per lapis', layaknya partitur musik: mendengar nuansa serangan (attack), timbre, dan frasa—lalu belajar dengan lebih presisi.
- Arsip, Restorasi, dan Memori BudayaRekaman lama sering kali menyimpan musik bersama dengan 'kebisingan' dari zamannya. Kini muncul peluang untuk menyoroti elemen utama secara hati-hati, tanpa 'membunuh' napas kehidupan rekaman tersebut.
- Film, Podcast, dan Liputan BeritaPekerjaan yang tadinya terhambat oleh masalah audio menjadi lebih cepat: mengekstrak ucapan dari keramaian, menghilangkan kebisingan latar yang berulang, atau hanya menyisakan satu instrumen.
- Sains dan Ekologi SuaraJika model mampu 'mengambil' peristiwa akustik tertentu, ini juga berpotensi berguna untuk bioakustik: mengisolasi sinyal hewan atau lingkungan dalam rekaman lapangan yang kompleks (di mana angin, perahu, atau latar belakang manusia selalu mengganggu).
Etika yang Sangat Penting
Ya, alat semacam ini bisa menggoda untuk 'mengambil vokal dari lagu orang lain'. Namun, dalam budaya yang hidup, penting untuk menjaga batasan: gunakan rekaman Anda sendiri, materi berlisensi, atau stem yang diizinkan, sambil menghormati hak cipta dan kerja keras para artis. (Teknologi memperkuat sang kreator—tetapi tidak menghilangkan kepercayaan.)
Suara Menjadi Multimodal
Dan secara simbolis, tepat pada hari-hari ini, 'mutasi musik' lain dari Meta muncul di berita—pembaruan untuk kacamata pintar Ray-Ban/Oakley Meta: Conversation Focus (memperkuat ucapan di tengah kebisingan) dan integrasi dengan Spotify, di mana Anda bisa 'melihat dan meminta' musik diputar berdasarkan tampilan visual atau sampul album. Artinya, suara semakin erat terhubung dengan apa yang kita lihat dan di mana kita berada.
Apa yang ditambahkan oleh peristiwa ini pada 'suara minggu ini'?
Peristiwa ini menambahkan bukan sekadar alat baru pada 'suara minggu ini', melainkan gramatika pendengaran yang baru—pergeseran dari 'hilangkan kebisingan' menjadi 'soroti makna'.
Minggu ini, peradaban seolah mendapatkan timbre baru: pendengaran berhenti menjadi pasif dan berubah menjadi niat. Kita belajar bukan hanya untuk 'mendengar segalanya', tetapi untuk dengan hati-hati menyoroti hal utama—baik dalam musik, ucapan, maupun suara alam. Dan di sini, patokan utama kita adalah etika: teknologi memperkuat kreator, tetapi ditopang oleh kepercayaan, hak cipta, dan penghormatan terhadap kehidupan. Karena kita banyak, tetapi kita SATU: satu aula konser, satu kota, satu samudra suara—dan semakin banyak cara untuk saling mendengar dengan lebih jernih.
Baca lebih banyak berita tentang topik ini:
Apakah Anda menemukan kesalahan atau ketidakakuratan?
Kami akan mempertimbangkan komentar Anda sesegera mungkin.
