সঙ্গীত পেল 'অণুবীক্ষণ যন্ত্র': SAM অডিও এবং শ্রবণের নতুন যুগ

লেখক: Inna Horoshkina One

SAM Audio পরিচয়: অডিও বিচ্ছেদের জন্য প্রথম একীভূত বহু-মোডাল মডেল | AI at Meta

আমরা বহু যুগ ধরেই শব্দের এক বিশাল সাগরে বসবাস করছি। কনসার্টের রেকর্ডিং যেন সেই সমুদ্রের ঢেউ—কণ্ঠস্বর, গিটার, দর্শকদের চিৎকার, প্রতিধ্বনি, রাস্তার কোলাহল, সভাস্থলের শ্বাস-প্রশ্বাস। পডকাস্ট হলো সেই স্রোত—কথা, এয়ার কন্ডিশনারের শব্দ, পায়ের আওয়াজ, কাগজের মচমচানি। এমনকি সোশ্যাল মিডিয়ার 'নীরব' ভিডিওতেও অসংখ্য ক্ষুদ্র ঘটনার ভিড় থাকে।

আর ঠিক এই পরিস্থিতিতে, ২০২৩ সালের ডিসেম্বরে এক যুগান্তকারী পরিবর্তন এলো, যা সভ্যতার এক নতুন সুরের মতো শোনাচ্ছে: Meta প্রকাশ করলো SAM Audio। এই মডেলটি পুরনো নিয়ম মেনে কেবল 'শব্দ দূষণ পরিষ্কার' করার বদলে, শব্দগুলিকে ঠিক সেভাবেই আলাদা করতে সক্ষম, যেভাবে আমরা স্বাভাবিকভাবে চিন্তা করি: 'এই কণ্ঠস্বরটি', 'এই গিটারটি', 'এই কুকুরের ডাক', 'এই মচমচ শব্দ', 'এই বিশেষ অংশটি' আলাদা করা সম্ভব হলো।

আবিষ্কার

SAM Audio-কে এই ধরনের কাজের ক্ষেত্রে প্রথম 'একীভূত' পদ্ধতি হিসেবে আখ্যা দেওয়া হচ্ছে। এটি এমন একটি একক হাতিয়ার যা বিভিন্ন ধরনের নির্দেশনা (prompt) নিয়ে কাজ করতে পারে:

  • টেক্সট প্রম্পট: আপনি লিখলেন “singing voice” / “guitar” / “traffic noise”—এবং প্রয়োজনীয় স্তরটি বের করে আনলেন।
  • ভিজ্যুয়াল প্রম্পট: যদি এটি ভিডিও হয়, তবে আপনি বস্তুটি (যেমন একজন ব্যক্তিকে) নির্দেশ করলেন, এবং মডেলটি তার শব্দ আলাদা করার চেষ্টা করবে।
  • স্প্যান প্রম্পট: আপনি সময়ের একটি অংশ চিহ্নিত করলেন যেখানে কাঙ্ক্ষিত শব্দটি রয়েছে এবং মডেলকে বললেন সেই অংশটি ট্র্যাকের বাকি অংশে খুঁজে বের করতে।

শুনতে সহজ মনে হলেও, এটাই এর মূল উদ্দেশ্য। আগে যেখানে অডিও বিভাজন (audio separation) প্রতিটি কাজের জন্য 'আলাদা আলাদা সরঞ্জামের সেট' ছিল, সেখানে এখন বহুবিধ পরিস্থিতিতে ব্যবহারের জন্য একটি মাত্র ভিত্তি তৈরির ধারণা আনা হয়েছে।

প্রমাণ

Meta কেবল ঘোষণার মধ্যেই SAM Audio সীমাবদ্ধ রাখেনি; এটি একটি গবেষণামূলক প্রকাশনা হিসেবে উন্মুক্ত করা হয়েছে। এর প্রকাশনা এবং প্রকল্পের পাতাটির তারিখ হলো ২০২৩ সালের ১৬ ডিসেম্বর। উপরন্তু, মডেলটি উন্মুক্ত চেকপয়েন্ট (যার মধ্যে “large” সংস্করণও রয়েছে) এবং ডেমো প্রদর্শনের মাধ্যমে ব্যবহারের জন্য উপলব্ধ করা হয়েছে।

সঙ্গীতের উপর প্রভাব

এখানে সবচেয়ে আকর্ষণীয় দিকটি কেবল 'এডিটিং সহজ হবে' (যদিও তা হবে) তা নয়, বরং সঙ্গীতের চারপাশে এক নতুন ধরনের বোধগম্যতা তৈরি হচ্ছে:

  1. সৃষ্টি ও শিক্ষাএকজন সঙ্গীতশিল্পী রেকর্ডিংকে স্বরলিপির মতো 'স্তর ধরে' বিশ্লেষণ করতে পারবেন: আক্রমণের সূক্ষ্মতা, টিম্বার, বাক্যাংশের বিন্যাস—এবং সে অনুযায়ী আরও নিখুঁতভাবে শিখতে পারবেন।
  2. সংরক্ষণ, পুনরুদ্ধার, এবং সাংস্কৃতিক স্মৃতিপুরোনো রেকর্ডিংগুলিতে প্রায়শই যুগের কোলাহলের সাথে সঙ্গীত মিশে থাকে। এখন সুযোগ এসেছে মূল সুরটিকে সাবধানে তুলে ধরার, যাতে রেকর্ডিংয়ের জীবন্ত শ্বাস-প্রশ্বাস নষ্ট না হয়।
  3. সিনেমা, পডকাস্ট, প্রতিবেদনযেসব ক্ষেত্রে শব্দ ছিল প্রধান বাধা, সেখানে কাজের গতি বাড়বে: ভিড়ের মধ্যে থেকে কণ্ঠস্বর বের করা, বারবার আসা শব্দ দূষণ দূর করা, বা কেবল একটি বাদ্যযন্ত্রকে আলাদা রাখা।
  4. বিজ্ঞান ও শব্দ পরিবেশ বিদ্যাযদি মডেলটি নির্দিষ্ট ধ্বনিগত ঘটনা 'বের করে আনতে' পারে, তবে এটি বায়োঅ্যাকোস্টিকসের জন্যও অত্যন্ত উপকারী হতে পারে: জটিল ফিল্ড রেকর্ডিং থেকে প্রাণী বা পরিবেশের সংকেত আলাদা করা (যেখানে বাতাস, নৌকা বা মানুষের পটভূমি সর্বদা বাধা সৃষ্টি করে)।

অত্যন্ত জরুরি নৈতিকতা

হ্যাঁ, এই ধরনের সরঞ্জাম কাউকে 'অন্যের ট্র্যাক থেকে কণ্ঠস্বর বের করে আনার' প্রলোভন দেখাতে পারে। কিন্তু জীবন্ত সংস্কৃতিতে সীমানা বজায় রাখা জরুরি: নিজের রেকর্ডিং, লাইসেন্সকৃত উপাদান বা অনুমোদিত স্টেম ব্যবহার করা উচিত, শিল্পীদের কপিরাইট এবং শ্রমকে সম্মান জানানো প্রয়োজন। (প্রযুক্তি স্রষ্টাকে শক্তিশালী করে—কিন্তু পারস্পরিক বিশ্বাসকে বাতিল করে না।)

শব্দ বহুমাত্রিক হচ্ছে

এবং প্রতীকীভাবে, ঠিক এই সময়েই Meta-র পক্ষ থেকে আরেকটি 'সঙ্গীত সংক্রান্ত রূপান্তর' খবরের শিরোনামে এসেছে—Ray-Ban/Oakley Meta স্মার্ট চশমার জন্য নতুন আপডেট:

Conversation Focus (কোলাহলের মধ্যে কণ্ঠস্বরকে জোরালো করা) এবং Spotify-এর সাথে একীকরণ, যেখানে আপনি 'দেখে বা অ্যালবামের কভার দেখিয়ে' গান চালাতে বলতে পারেন। অর্থাৎ, শব্দ এখন আমরা যা দেখছি এবং যেখানে আছি, তার সাথে আরও নিবিড়ভাবে যুক্ত হচ্ছে।

এই ঘটনাটি সপ্তাহের শব্দে কী যোগ করলো?

এই ঘটনাটি 'সপ্তাহের শব্দে' কেবল একটি নতুন সরঞ্জাম যোগ করেনি, বরং শ্রবণের এক নতুন ব্যাকরণ যোগ করেছে—'শব্দ দূষণ দূর করা' থেকে 'অর্থ বের করে আনা'-তে পরিবর্তন।

এই সপ্তাহে সভ্যতা যেন এক নতুন টিম্বার লাভ করেছে: শ্রবণ আর নিষ্ক্রিয় রইলো না, বরং তা উদ্দেশ্যপূর্ণ হয়ে উঠলো। আমরা কেবল 'সবকিছু শুনতে' শিখছি না, বরং সঙ্গীত, কথা এবং প্রকৃতির কণ্ঠে মূল বিষয়টিকে যত্নের সাথে আলাদা করতে শিখছি। আর এখানে আমাদের প্রধান সুর হলো নৈতিকতা: প্রযুক্তি সৃষ্টিকর্তাকে শক্তি যোগায়, কিন্তু তা নির্ভর করে বিশ্বাস, কপিরাইট এবং জীবন্ত অভিজ্ঞতার প্রতি শ্রদ্ধার ওপর।

কারণ আমরা বহু, কিন্তু আমরা এক: একটি হল, একটি শহর, শব্দের এক মহাসাগর—এবং একে অপরের কথা আরও স্পষ্টভাবে শোনার উপায় ক্রমশ বাড়ছে।

15 দৃশ্য

আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?

আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।