Giới thiệu SAM Audio: Mô hình đa phương thức thống nhất đầu tiên cho phân tách âm thanh | AI at Meta
Âm nhạc có “kính hiển vi”: SAM Audio và Kỷ nguyên Thính giác Mới
Tác giả: Inna Horoshkina One
Chúng ta đang sống trong một đại dương âm thanh mênh mông. Một bản ghi âm buổi hòa nhạc là tiếng sóng vỗ bờ: có giọng hát, tiếng guitar, tiếng reo hò, tiếng vọng, tiếng ồn đường phố, và cả hơi thở của khán phòng. Podcast lại giống như những dòng hải lưu: có tiếng nói, tiếng điều hòa, tiếng bước chân, tiếng sột soạt của giấy tờ. Ngay cả một đoạn video “tĩnh lặng” trên mạng xã hội cũng là một đàn các vi sự kiện âm thanh.
Vào tháng 12 năm 2025, một bước ngoặt đã xảy ra, tựa như một nốt nhạc mới của nền văn minh: Meta đã ra mắt SAM Audio. Mô hình này không chỉ đơn thuần là “làm sạch nhiễu” theo các quy tắc cũ, mà nó cho phép tách biệt các âm thanh theo cách chúng ta tư duy một cách tự nhiên nhất: “đây là giọng hát đó”, “kia là tiếng guitar”, “tiếng chó sủa kia”, “tiếng lạo xạo này”, “và đoạn âm thanh nhỏ bé kia”.
Sự Khai Phá
SAM Audio được mệnh danh là phương pháp “hợp nhất” đầu tiên thuộc loại này: một công cụ duy nhất hoạt động với nhiều phương thức gợi ý khác nhau:
- Gợi ý bằng văn bản (Text prompt): Bạn chỉ cần nhập “giọng hát đang hát” (singing voice) / “guitar” / “tiếng ồn giao thông” (traffic noise) — và mô hình sẽ trích xuất lớp âm thanh mong muốn.
- Gợi ý bằng hình ảnh (Visual prompt): Nếu đó là video, bạn chỉ định đối tượng (ví dụ: một người), và mô hình sẽ cố gắng làm nổi bật âm thanh phát ra từ đối tượng đó.
- Gợi ý theo khoảng thời gian (Span prompt): Bạn chọn một đoạn thời gian chứa âm thanh cần tìm, và yêu cầu mô hình “tìm kiếm điều này” ở những nơi khác trong bản ghi.
Nghe có vẻ đơn giản — và đó chính là ý nghĩa cốt lõi. Nếu trước đây việc phân tách âm thanh là một “bộ công cụ riêng lẻ” cho từng nhiệm vụ, thì ở đây, Meta khẳng định ý tưởng về một nền tảng cơ bản duy nhất cho vô số kịch bản ứng dụng.
Bằng Chứng Thực Tế
Meta không chỉ công bố SAM Audio như một thông báo suông mà còn là một bản phát hành nghiên cứu: tài liệu công bố và trang dự án đều đề ngày 16 tháng 12 năm 2025, đồng thời mô hình này được cung cấp dưới dạng các điểm kiểm tra (checkpoint) mở (bao gồm cả phiên bản “lớn”) cùng với các bản trình diễn.
Hệ Quả Đối Với Âm Nhạc
Điều thú vị nhất ở đây không chỉ là “việc chỉnh sửa sẽ dễ dàng hơn” (mặc dù nó chắc chắn sẽ dễ dàng hơn), mà là một trình độ nhận thức mới đang hình thành xung quanh âm nhạc:
- Sáng tác và Đào tạoNhạc sĩ có thể phân tích bản ghi âm “theo từng lớp”, giống như đọc một bản tổng phổ: họ có thể nghe rõ các sắc thái về cách tấn công nốt, âm sắc, và cách ngắt câu — từ đó học hỏi chính xác hơn.
- Lưu trữ, Phục chế, và Ký ức Văn hóaCác bản ghi âm cũ thường lưu giữ âm nhạc lẫn với tiếng ồn của thời đại. Giờ đây, có cơ hội để làm nổi bật một cách tinh tế những gì cốt lõi, mà không làm “chết đi” hơi thở sống động của bản ghi.
- Điện ảnh, Podcast, và Phóng sựTốc độ làm việc được đẩy nhanh ở những khâu mà âm thanh từng là nút thắt cổ chai: trích xuất lời thoại giữa đám đông, loại bỏ tiếng ồn lặp đi lặp lại, hoặc chỉ giữ lại một nhạc cụ duy nhất.
- Khoa học và Sinh thái học Âm thanhNếu mô hình có khả năng “rút ra” các sự kiện âm thanh cụ thể, điều này cũng có tiềm năng ứng dụng cho sinh học âm học: tách biệt tín hiệu của động vật/môi trường trong các bản ghi dã ngoại phức tạp (nơi gió, thuyền bè, tiếng ồn nền của con người luôn gây cản trở).
Đạo Đức Cực Kỳ Quan Trọng
Đúng là một công cụ như thế này có thể cám dỗ người dùng “lấy giọng hát ra khỏi bản nhạc của người khác”. Tuy nhiên, trong văn hóa ứng dụng thực tế, điều quan trọng là phải giữ vững ranh giới: chỉ sử dụng các bản ghi của chính mình, tài liệu có giấy phép, hoặc các stem được cho phép, tôn trọng bản quyền và công sức của nghệ sĩ. (Công nghệ khuếch đại khả năng sáng tạo của người làm nghệ thuật — nhưng không xóa bỏ sự tin tưởng.)
Âm Thanh Trở Nên Đa Phương Thức
Và thật mang tính biểu tượng, chính trong những ngày này, một “biến thể âm nhạc” khác từ Meta lại xuất hiện trên các bản tin — đó là các bản cập nhật cho kính thông minh Ray-Ban/Oakley Meta: tính năng Conversation Focus (tăng cường giọng nói trong môi trường ồn ào) và tích hợp với Spotify, cho phép người dùng “nhìn và yêu cầu” phát nhạc dựa trên hình ảnh hoặc bìa album. Điều này cho thấy âm thanh ngày càng gắn kết chặt chẽ với những gì chúng ta nhìn thấy và nơi chúng ta đang hiện diện.
Sự kiện này đã mang lại điều gì cho “âm thanh của tuần”? Nó không chỉ thêm vào một công cụ mới, mà còn là một ngữ pháp thính giác mới — một sự chuyển dịch từ “loại bỏ nhiễu” sang “làm nổi bật ý nghĩa”.
Tuần này, nền văn minh dường như đã nhận được một âm sắc mới: thính giác không còn thụ động mà trở thành sự chủ ý. Chúng ta đang học cách không chỉ “nghe mọi thứ”, mà là cẩn trọng tách lọc những gì quan trọng — dù là trong âm nhạc, lời nói, hay tiếng gọi của thiên nhiên. Và kim chỉ nam của chúng ta chính là đạo đức: công nghệ giúp người sáng tạo mạnh mẽ hơn, nhưng nó phải được xây dựng trên nền tảng của sự tin tưởng, bản quyền và tôn trọng sự sống.
Bởi vì chúng ta đông đảo, nhưng chúng ta là MỘT: một khán phòng, một thành phố, một đại dương âm thanh — và ngày càng có nhiều cách để chúng ta nghe thấy nhau rõ ràng hơn.
Đọc thêm tin tức về chủ đề này:
Bạn có phát hiện lỗi hoặc sai sót không?
Chúng tôi sẽ xem xét ý kiến của bạn càng sớm càng tốt.
