SAM Audio का परिचय: ऑडियो पृथक्करण के लिए पहला एकीकृत बहु-मोडल मॉडल | AI at Meta
संगीत को मिला 'माइक्रोस्कोप': SAM Audio और श्रवण का नया युग
लेखक: Inna Horoshkina One
हम लंबे समय से ध्वनियों के महासागर में जी रहे हैं। किसी संगीत कार्यक्रम की रिकॉर्डिंग एक लहर की तरह है: जिसमें गायन, गिटार, भीड़ की आवाजें, गूंज, सड़क का शोर और दर्शकों की सांसें शामिल होती हैं। पॉडकास्ट धाराओं जैसा है: जिसमें आवाज़, एयर कंडीशनर की घरघराहट, कदमों की आहट और कागज़ की सरसराहट होती है। यहाँ तक कि सोशल मीडिया पर 'शांत' दिखने वाला वीडियो भी सूक्ष्म घटनाओं का एक झुंड होता है।
और फिर, दिसंबर 2025 में, एक ऐसा मोड़ आया जो सभ्यता के एक नए स्वर जैसा लगता है: Meta ने SAM Audio जारी किया। यह मॉडल पुरानी कार्यप्रणाली के अनुसार 'शोर को साफ़' करने के बजाय, ध्वनियों को उसी तरह अलग करने का प्रस्ताव करता है जैसे हम स्वाभाविक रूप से सोचते हैं: 'यह आवाज़ है', 'यह गिटार है', 'यह भौंकना है', 'यह चरमराहट है', 'यह वह छोटा सा हिस्सा है'।
खोज: एक एकीकृत दृष्टिकोण
SAM Audio को इस तरह के पहले 'एकीकृत' दृष्टिकोण के रूप में जाना जाता है। यह एक ऐसा उपकरण है जो विभिन्न प्रकार के संकेतों (prompts) के साथ काम करता है:
- टेक्स्ट प्रॉम्प्ट: आप 'गायन आवाज़' / 'गिटार' / 'यातायात का शोर' लिखते हैं और वांछित परत को बाहर निकालते हैं।
- विज़ुअल प्रॉम्प्ट: यदि यह वीडियो है, तो आप किसी वस्तु (जैसे व्यक्ति) को इंगित करते हैं, और मॉडल उस वस्तु की ध्वनि को अलग करने का प्रयास करता है।
- स्पैन प्रॉम्प्ट: आप समय का वह खंड चुनते हैं जहाँ वांछित ध्वनि मौजूद है, और मॉडल से ट्रैक पर आगे 'इसे ढूंढने' के लिए कहते हैं।
यह सुनने में सरल लगता है—और यही इसका सार है। यदि पहले ऑडियो पृथक्करण हर कार्य के लिए 'अलग-अलग उपकरणों का एक सेट' था, तो यहाँ कई परिदृश्यों के लिए एक ही आधार स्थापित करने का विचार प्रस्तुत किया गया है।
प्रमाण और शोध
Meta ने SAM Audio को केवल घोषणा के रूप में नहीं, बल्कि एक शोध रिलीज़ के रूप में प्रस्तुत किया है। परियोजना का प्रकाशन और पृष्ठ 16 दिसंबर 2025 की तारीख के साथ चिह्नित हैं। इसके अलावा, मॉडल खुले चेकपॉइंट्स (जिसमें 'large' भी शामिल है) और प्रदर्शनों के रूप में उपलब्ध है।
संगीत पर प्रभाव
यहाँ सबसे दिलचस्प बात यह नहीं है कि 'संपादन आसान हो जाएगा' (हालांकि यह होगा), बल्कि यह है कि संगीत के चारों ओर एक नई साक्षरता का उदय हो रहा है:
- निर्माण और शिक्षासंगीतकार रिकॉर्डिंग को स्कोर की तरह 'परतों में' विघटित कर सकेगा: हमले (attack), टिम्बर, और वाक्यांश (phrasing) के सूक्ष्म अंतरों को सुनकर—और अधिक सटीकता से सीख सकेगा।
- अभिलेखागार, बहाली, सांस्कृतिक स्मृतिपुरानी रिकॉर्डिंग अक्सर युग के शोर के साथ संगीत को संग्रहीत करती हैं। अब मुख्य चीज़ को उजागर करने का अवसर है, लेकिन उस जीवंत श्वास को 'नष्ट किए बिना'।
- सिनेमा, पॉडकास्ट, रिपोर्टिंगजहाँ ध्वनि एक बाधा थी, वहाँ काम तेज़ हो जाता है: भीड़ में से भाषण निकालना, दोहराए जाने वाले शोर को हटाना, या केवल एक वाद्य यंत्र को बनाए रखना।
- विज्ञान और ध्वनि पारिस्थितिकीयदि मॉडल विशिष्ट ध्वनिक घटनाओं को 'निकालने' में सक्षम है, तो यह जैव-ध्वनिकी (bioacoustics) के लिए भी संभावित रूप से उपयोगी है: जटिल क्षेत्रीय रिकॉर्डिंग में जानवरों/पर्यावरण के संकेतों को अलग करना (जहाँ हवा, नावें, मानवीय पृष्ठभूमि हमेशा बाधा डालती हैं)।
यह तकनीक रचनाकार को सशक्त बनाती है, लेकिन भरोसे को खत्म नहीं करती।
नैतिकता का महत्व
हाँ, ऐसा उपकरण किसी को 'किसी और के ट्रैक से वोकल्स निकालने' के लिए लुभा सकता है। लेकिन जीवंत संस्कृति में सीमाएँ बनाए रखना महत्वपूर्ण है: अपने स्वयं के रिकॉर्डिंग, लाइसेंस प्राप्त सामग्री, या अनुमत स्टेम का उपयोग करें, और कलाकारों के कॉपीराइट और श्रम का सम्मान करें। यह तकनीक रचनाकार को बल देती है—लेकिन विश्वास को रद्द नहीं करती।
ध्वनि बहुविध (multimodal) होती जा रही है।
और यह प्रतीकात्मक है कि इन्हीं दिनों में, Meta की ओर से एक और 'संगीत उत्परिवर्तन' समाचारों में उभरा—Ray-Ban/Oakley Meta स्मार्ट चश्मे के लिए अपडेट: Conversation Focus (शोर में भाषण बढ़ाना) और Spotify के साथ एकीकरण, जहाँ आप 'देखकर संगीत चलाने' या एल्बम कवर के आधार पर अनुरोध करने में सक्षम हैं। इसका मतलब है कि ध्वनि तेजी से उस चीज़ से जुड़ रही है जिसे हम देखते हैं और हम कहाँ स्थित हैं।
इस सप्ताह की घटनाओं ने 'सप्ताह की ध्वनि' में केवल एक नया उपकरण नहीं जोड़ा, बल्कि सुनने की एक नई व्याकरण जोड़ी है—'शोर हटाओ' से 'अर्थ निकालो' की ओर बदलाव।
इस सप्ताह सभ्यता ने जैसे एक नया स्वर प्राप्त किया है: सुनना अब निष्क्रिय नहीं रहा, बल्कि यह इरादा बन गया है। हम केवल 'सब कुछ सुनना' नहीं सीख रहे हैं, बल्कि संगीत, भाषण और प्रकृति की आवाज़ों में मुख्य चीज़ को सावधानीपूर्वक अलग करना सीख रहे हैं। और यहाँ हमारी मुख्य ट्यूनिंग कांटा नैतिकता है: तकनीक रचनाकार को सशक्त बनाती है, लेकिन यह विश्वास, कॉपीराइट और जीवंतता के सम्मान पर टिकी हुई है। क्योंकि हम अनेक हैं, पर हम एक हैं: एक हॉल, एक शहर, ध्वनियों का एक महासागर—और एक-दूसरे को स्पष्ट रूप से सुनने के और भी अधिक तरीके हैं।
इस विषय पर और अधिक समाचार पढ़ें:
क्या आपने कोई गलती या अशुद्धि पाई?
हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।
