SAM Audio পরিচয়: অডিও বিচ্ছেদের জন্য প্রথম একীভূত বহু-মোডাল মডেল | AI at Meta
সঙ্গীত পেল 'অণুবীক্ষণ যন্ত্র': SAM অডিও এবং শ্রবণের নতুন যুগ
লেখক: Inna Horoshkina One
আমরা বহু যুগ ধরেই শব্দের এক বিশাল সাগরে বসবাস করছি। কনসার্টের রেকর্ডিং যেন সেই সমুদ্রের ঢেউ—কণ্ঠস্বর, গিটার, দর্শকদের চিৎকার, প্রতিধ্বনি, রাস্তার কোলাহল, সভাস্থলের শ্বাস-প্রশ্বাস। পডকাস্ট হলো সেই স্রোত—কথা, এয়ার কন্ডিশনারের শব্দ, পায়ের আওয়াজ, কাগজের মচমচানি। এমনকি সোশ্যাল মিডিয়ার 'নীরব' ভিডিওতেও অসংখ্য ক্ষুদ্র ঘটনার ভিড় থাকে।
আর ঠিক এই পরিস্থিতিতে, ২০২৩ সালের ডিসেম্বরে এক যুগান্তকারী পরিবর্তন এলো, যা সভ্যতার এক নতুন সুরের মতো শোনাচ্ছে: Meta প্রকাশ করলো SAM Audio। এই মডেলটি পুরনো নিয়ম মেনে কেবল 'শব্দ দূষণ পরিষ্কার' করার বদলে, শব্দগুলিকে ঠিক সেভাবেই আলাদা করতে সক্ষম, যেভাবে আমরা স্বাভাবিকভাবে চিন্তা করি: 'এই কণ্ঠস্বরটি', 'এই গিটারটি', 'এই কুকুরের ডাক', 'এই মচমচ শব্দ', 'এই বিশেষ অংশটি' আলাদা করা সম্ভব হলো।
আবিষ্কার
SAM Audio-কে এই ধরনের কাজের ক্ষেত্রে প্রথম 'একীভূত' পদ্ধতি হিসেবে আখ্যা দেওয়া হচ্ছে। এটি এমন একটি একক হাতিয়ার যা বিভিন্ন ধরনের নির্দেশনা (prompt) নিয়ে কাজ করতে পারে:
- টেক্সট প্রম্পট: আপনি লিখলেন “singing voice” / “guitar” / “traffic noise”—এবং প্রয়োজনীয় স্তরটি বের করে আনলেন।
- ভিজ্যুয়াল প্রম্পট: যদি এটি ভিডিও হয়, তবে আপনি বস্তুটি (যেমন একজন ব্যক্তিকে) নির্দেশ করলেন, এবং মডেলটি তার শব্দ আলাদা করার চেষ্টা করবে।
- স্প্যান প্রম্পট: আপনি সময়ের একটি অংশ চিহ্নিত করলেন যেখানে কাঙ্ক্ষিত শব্দটি রয়েছে এবং মডেলকে বললেন সেই অংশটি ট্র্যাকের বাকি অংশে খুঁজে বের করতে।
শুনতে সহজ মনে হলেও, এটাই এর মূল উদ্দেশ্য। আগে যেখানে অডিও বিভাজন (audio separation) প্রতিটি কাজের জন্য 'আলাদা আলাদা সরঞ্জামের সেট' ছিল, সেখানে এখন বহুবিধ পরিস্থিতিতে ব্যবহারের জন্য একটি মাত্র ভিত্তি তৈরির ধারণা আনা হয়েছে।
প্রমাণ
Meta কেবল ঘোষণার মধ্যেই SAM Audio সীমাবদ্ধ রাখেনি; এটি একটি গবেষণামূলক প্রকাশনা হিসেবে উন্মুক্ত করা হয়েছে। এর প্রকাশনা এবং প্রকল্পের পাতাটির তারিখ হলো ২০২৩ সালের ১৬ ডিসেম্বর। উপরন্তু, মডেলটি উন্মুক্ত চেকপয়েন্ট (যার মধ্যে “large” সংস্করণও রয়েছে) এবং ডেমো প্রদর্শনের মাধ্যমে ব্যবহারের জন্য উপলব্ধ করা হয়েছে।
সঙ্গীতের উপর প্রভাব
এখানে সবচেয়ে আকর্ষণীয় দিকটি কেবল 'এডিটিং সহজ হবে' (যদিও তা হবে) তা নয়, বরং সঙ্গীতের চারপাশে এক নতুন ধরনের বোধগম্যতা তৈরি হচ্ছে:
- সৃষ্টি ও শিক্ষাএকজন সঙ্গীতশিল্পী রেকর্ডিংকে স্বরলিপির মতো 'স্তর ধরে' বিশ্লেষণ করতে পারবেন: আক্রমণের সূক্ষ্মতা, টিম্বার, বাক্যাংশের বিন্যাস—এবং সে অনুযায়ী আরও নিখুঁতভাবে শিখতে পারবেন।
- সংরক্ষণ, পুনরুদ্ধার, এবং সাংস্কৃতিক স্মৃতিপুরোনো রেকর্ডিংগুলিতে প্রায়শই যুগের কোলাহলের সাথে সঙ্গীত মিশে থাকে। এখন সুযোগ এসেছে মূল সুরটিকে সাবধানে তুলে ধরার, যাতে রেকর্ডিংয়ের জীবন্ত শ্বাস-প্রশ্বাস নষ্ট না হয়।
- সিনেমা, পডকাস্ট, প্রতিবেদনযেসব ক্ষেত্রে শব্দ ছিল প্রধান বাধা, সেখানে কাজের গতি বাড়বে: ভিড়ের মধ্যে থেকে কণ্ঠস্বর বের করা, বারবার আসা শব্দ দূষণ দূর করা, বা কেবল একটি বাদ্যযন্ত্রকে আলাদা রাখা।
- বিজ্ঞান ও শব্দ পরিবেশ বিদ্যাযদি মডেলটি নির্দিষ্ট ধ্বনিগত ঘটনা 'বের করে আনতে' পারে, তবে এটি বায়োঅ্যাকোস্টিকসের জন্যও অত্যন্ত উপকারী হতে পারে: জটিল ফিল্ড রেকর্ডিং থেকে প্রাণী বা পরিবেশের সংকেত আলাদা করা (যেখানে বাতাস, নৌকা বা মানুষের পটভূমি সর্বদা বাধা সৃষ্টি করে)।
অত্যন্ত জরুরি নৈতিকতা
হ্যাঁ, এই ধরনের সরঞ্জাম কাউকে 'অন্যের ট্র্যাক থেকে কণ্ঠস্বর বের করে আনার' প্রলোভন দেখাতে পারে। কিন্তু জীবন্ত সংস্কৃতিতে সীমানা বজায় রাখা জরুরি: নিজের রেকর্ডিং, লাইসেন্সকৃত উপাদান বা অনুমোদিত স্টেম ব্যবহার করা উচিত, শিল্পীদের কপিরাইট এবং শ্রমকে সম্মান জানানো প্রয়োজন। (প্রযুক্তি স্রষ্টাকে শক্তিশালী করে—কিন্তু পারস্পরিক বিশ্বাসকে বাতিল করে না।)
শব্দ বহুমাত্রিক হচ্ছে
এবং প্রতীকীভাবে, ঠিক এই সময়েই Meta-র পক্ষ থেকে আরেকটি 'সঙ্গীত সংক্রান্ত রূপান্তর' খবরের শিরোনামে এসেছে—Ray-Ban/Oakley Meta স্মার্ট চশমার জন্য নতুন আপডেট:
Conversation Focus (কোলাহলের মধ্যে কণ্ঠস্বরকে জোরালো করা) এবং Spotify-এর সাথে একীকরণ, যেখানে আপনি 'দেখে বা অ্যালবামের কভার দেখিয়ে' গান চালাতে বলতে পারেন। অর্থাৎ, শব্দ এখন আমরা যা দেখছি এবং যেখানে আছি, তার সাথে আরও নিবিড়ভাবে যুক্ত হচ্ছে।
এই ঘটনাটি সপ্তাহের শব্দে কী যোগ করলো?
এই ঘটনাটি 'সপ্তাহের শব্দে' কেবল একটি নতুন সরঞ্জাম যোগ করেনি, বরং শ্রবণের এক নতুন ব্যাকরণ যোগ করেছে—'শব্দ দূষণ দূর করা' থেকে 'অর্থ বের করে আনা'-তে পরিবর্তন।
এই সপ্তাহে সভ্যতা যেন এক নতুন টিম্বার লাভ করেছে: শ্রবণ আর নিষ্ক্রিয় রইলো না, বরং তা উদ্দেশ্যপূর্ণ হয়ে উঠলো। আমরা কেবল 'সবকিছু শুনতে' শিখছি না, বরং সঙ্গীত, কথা এবং প্রকৃতির কণ্ঠে মূল বিষয়টিকে যত্নের সাথে আলাদা করতে শিখছি। আর এখানে আমাদের প্রধান সুর হলো নৈতিকতা: প্রযুক্তি সৃষ্টিকর্তাকে শক্তি যোগায়, কিন্তু তা নির্ভর করে বিশ্বাস, কপিরাইট এবং জীবন্ত অভিজ্ঞতার প্রতি শ্রদ্ধার ওপর।
কারণ আমরা বহু, কিন্তু আমরা এক: একটি হল, একটি শহর, শব্দের এক মহাসাগর—এবং একে অপরের কথা আরও স্পষ্টভাবে শোনার উপায় ক্রমশ বাড়ছে।
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?
আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
