এআই বোঝার পথ প্রশস্ত করছে ওপেনএআই, নতুন স্পার্স মডেল গবেষণা প্রকাশ
লেখক: Veronika Radoslavskaya
আধুনিক কৃত্রিম বুদ্ধিমত্তার (এআই) ভিত্তিপ্রস্তর হলো বৃহৎ ভাষা মডেলগুলি (LLM)—এগুলি জটিল নিউরাল নেটওয়ার্ক। দীর্ঘকাল ধরে, এই মডেলগুলির অভ্যন্তরীণ কার্যপ্রণালী একটি 'ব্ল্যাক বক্স' বা রহস্য হিসেবেই থেকে গেছে। এই রহস্য এদের নির্মাতাদের জন্যও একটি গুরুতর চ্যালেঞ্জ তৈরি করেছিল। আমরা তাদের প্রদর্শিত চিত্তাকর্ষক ফলাফল দেখতে পাই, কিন্তু মডেলগুলি ঠিক কীভাবে এই সিদ্ধান্তে পৌঁছায়, তা ছিল অজানা। সম্প্রতি OpenAI-এর প্রকাশিত একটি গবেষণা প্রতিবেদন ব্যাখ্যাযোগ্যতার ক্ষেত্রে এক উল্লেখযোগ্য অগ্রগতি এনেছে, যেখানে তারা এক নতুন ধরনের স্বচ্ছ পরীক্ষামূলক মডেল সফলভাবে উপস্থাপন করেছে।
এই গবেষণার কেন্দ্রবিন্দুতে ছিল ছোট 'ডিকোডার-অনলি' ট্রান্সফর্মারগুলি, যা বিশেষভাবে পাইথন কোডের ওপর প্রশিক্ষণপ্রাপ্ত। এটি মনে রাখা গুরুত্বপূর্ণ যে এই মডেলগুলি সাধারণ ব্যবহারের জন্য তৈরি করা হয়নি; বরং এগুলি বৈজ্ঞানিক বিশ্লেষণের জন্য নির্মিত বিশেষ সরঞ্জাম। মূল উদ্ভাবনটি ছিল 'ওয়েট-স্পারসিং' (weight-sparsing) নামক একটি পদ্ধতি। এই পদ্ধতিতে মডেলের অভ্যন্তরীণ সংযোগগুলির ব্যবহারকে জোরপূর্বক সীমিত করা হয়, যার ফলে ৯৯.৯%-এরও বেশি সংযোগকে শূন্যে নামিয়ে আনা হয়।
এই বাধ্যতামূলক স্পারসিং বা সংযোগ হ্রাসকরণের ফলে এক বিস্ময়কর প্রভাব দেখা যায়। একটি আদর্শ, ঘন মডেলে যখন কোনো একটি ফাংশন (যেমন, প্রোগ্রামের ত্রুটি শনাক্ত করা) কার্যকর করা হয়, তখন বিস্তৃত ও জট পাকানো সংযোগের একটি জালিকা ব্যবহার করতে হয়। কিন্তু নতুন স্পার্স মডেলগুলিতে, একই ফাংশনটি একটি পৃথক, ক্ষুদ্র এবং সহজে বোধগম্য 'সার্কিট'-এর মধ্যে বিচ্ছিন্ন হয়ে যায়। বিজ্ঞানীরা দেখতে পান যে এই সার্কিটগুলি তুলনামূলক ঘন মডেলগুলির তুলনায় প্রায় ১৬ গুণ ছোট। এটি গবেষকদের এআই-এর আচরণের পেছনের প্রক্রিয়াগুলি সঠিকভাবে চিহ্নিত করতে সাহায্য করে, যা 'মেকানিস্টিক ইন্টারপ্রেটেবিলিটি'—অর্থাৎ কৃত্রিম বুদ্ধিমত্তার চিন্তাভাবনার প্রক্রিয়া বোঝার বিজ্ঞান—এর জন্য এক বিশাল পদক্ষেপ।
এআই-এর নিরাপত্তা এবং আস্থার ক্ষেত্রে এই আবিষ্কারের গভীর প্রভাব রয়েছে। যদি ক্ষতিকারক আচরণ, উদাহরণস্বরূপ, দুর্বল প্রোগ্রাম কোড তৈরি করা, একটি নির্দিষ্ট, বিচ্ছিন্ন সার্কিটের মাধ্যমে খুঁজে বের করা যায়, তবে তাত্ত্বিকভাবে এটিকে 'অ্যাবলেট' বা অস্ত্রোপচারের মাধ্যমে অপসারণ করা সম্ভব। এই পদ্ধতিটি মডেল তৈরি হওয়ার পরে কেবল বাহ্যিক সীমাবদ্ধতা (গার্ডরেইল) প্রয়োগ করার চেয়েও আরও সুনির্দিষ্ট এবং মৌলিক নিরাপত্তা নিয়ন্ত্রণ নিশ্চিত করে।
তবে এটি বোঝা জরুরি যে এই স্পার্স মডেলগুলি বর্তমানের শক্তিশালী LLM-গুলির স্থান নেবে না। এগুলি ইচ্ছাকৃতভাবে সীমিত এবং এদের ছোট আকারের তুলনায় প্রশিক্ষণ দিতে অত্যন্ত ব্যয়বহুল ও অদক্ষ। এদের আসল মূল্য হলো 'মডেল অর্গানিজম' হিসেবে কাজ করা—জীববিজ্ঞানে ব্যবহৃত সরল সিস্টেমগুলির মতো, যা বিজ্ঞানীদের মৌলিক নীতিগুলি বুঝতে সাহায্য করে। এই গবেষণা একটি অত্যন্ত গুরুত্বপূর্ণ ভিত্তি স্থাপন করছে। আশা করা যায়, ভবিষ্যতে এই সরল, বোধগম্য সার্কিটগুলি থেকে এমন 'সেতু' নির্মাণ করা সম্ভব হবে, যা আমাদের বিশ্বকে পরিবর্তনকারী বিশাল, জটিল এবং ঘন মডেলগুলির কার্যপ্রণালী ব্যাখ্যা করতে সক্ষম হবে।
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?
আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
