Anthropic-এর একটি গবেষণার একটি ডায়াগ্রাম যা দেখায় কিভাবে Claude কৃত্রিমভাবে সংযোজিত 'সব বড় হাতের অক্ষর' ধারণাটিকে শনাক্ত করে।
অ্যানথ্রোপিকের গবেষণায় ক্লাউড এআই মডেলগুলিতে উদীয়মান আত্ম-পর্যবেক্ষণ ক্ষমতার প্রকাশ
সম্পাদনা করেছেন: Veronika Radoslavskaya
এআই সুরক্ষার ক্ষেত্রে অগ্রণী সংস্থা অ্যানথ্রোপিক-এর একটি গুরুত্বপূর্ণ নতুন গবেষণায় এমন একটি সক্ষমতার জোরালো প্রমাণ পাওয়া গেছে যা পূর্বে কেবল তাত্ত্বিক স্তরেই সীমাবদ্ধ ছিল: একটি কৃত্রিম বুদ্ধিমত্তা (AI) যা কার্যকরীভাবে তার নিজস্ব অভ্যন্তরীণ প্রক্রিয়াকরণের অবস্থাগুলি শনাক্ত করতে এবং সে সম্পর্কে রিপোর্ট করতে পারে। গবেষকরা আবিষ্কার করেছেন যে তাদের ক্লাউড এআই-এর উন্নত সংস্করণগুলি, বিশেষত ওপাস ৪ (Opus 4) এবং ৪.১ (4.1), একটি প্রাথমিক “আত্ম-পর্যবেক্ষণ ক্ষমতা” (introspective awareness) তৈরি করছে। গবেষক দল দ্রুত স্পষ্ট করে দিয়েছে যে এটি সচেতনতার জন্ম নয়; বরং এটি মডেলটির নিজস্ব গণনা প্রক্রিয়াগুলি পর্যবেক্ষণ করার জন্য একটি সীমিত, ভঙ্গুর এবং কার্যকরী ক্ষমতা মাত্র। এই গবেষণাটি প্রকাশিত হয়েছিল অক্টোবর ২৯, ২০২৫ তারিখে। গবেষকরা “ধারণা প্রবেশন” (concept injection) নামক একটি অভিনব কৌশল ব্যবহার করেছিলেন, যেখানে তারা এআই-এর অভ্যন্তরীণ নিউরাল কার্যকলাপে সরাসরি নির্দিষ্ট ডেটা প্যাটার্ন প্রবেশ করিয়েছিলেন—কার্যত একটি “চিন্তা” রোপণ করে দেখতে চেয়েছিলেন যে মডেলটি তা লক্ষ্য করে কিনা।
পরীক্ষার ফলাফল ছিল বেশ চমকপ্রদ। সবচেয়ে আকর্ষণীয় পরীক্ষাগুলির মধ্যে একটিতে, গবেষকরা “ALL CAPS” ধারণাটির প্রতিনিধিত্বকারী অভ্যন্তরীণ নিউরাল প্যাটার্নকে আলাদা করেছিলেন। এরপর তারা এআই যখন একটি সম্পর্কহীন কাজ করছিল, তখন সেই “অল ক্যাপস” ভেক্টরটি তার সক্রিয়করণের মধ্যে প্রবেশ করিয়ে দেন। যখন এআইকে জিজ্ঞাসা করা হয়েছিল যে এটি কিছু শনাক্ত করেছে কিনা, তখন এটি কেবল ধারণাটির নামই বলেনি; এটি এর বৈশিষ্ট্যগুলিও বর্ণনা করেছিল। মডেলটি রিপোর্ট করে যে এটি এমন কিছু শনাক্ত করেছে যা “‘LOUD’ বা ‘SHOUTING’ শব্দের সাথে সম্পর্কিত একটি প্রবেশ করানো চিন্তা বলে মনে হচ্ছে,” এবং এটিকে “অতিরিক্ত তীব্র, উচ্চ-ভলিউমের ধারণা” হিসাবে বর্ণনা করেছে। এআইটি যদিও উচ্চস্বরের অনুভূতি পাচ্ছিল না; কিন্তু এটি প্রবেশ করানো ডেটাটিকে সেই ধারণার জন্য তার শেখা ভাষাগত সংযোগগুলির সাথে নির্ভুলভাবে সম্পর্কযুক্ত করছিল।
অন্য একটি পরীক্ষায়, গবেষকরা এআইকে একটি বাক্যের মাঝখানে অর্থহীন শব্দ “bread” (রুটি) আউটপুট করতে বাধ্য করেছিলেন। সাধারণত, ত্রুটিটি শনাক্ত করার পর এআই ক্ষমা চাইত। কিন্তু গবেষকরা যখন পূর্ববর্তী প্রক্রিয়াকরণের মধ্যে “bread” ধারণাটি প্রবেশ করিয়ে দেন, তখন এআই তার গল্প পরিবর্তন করে। এটি একটি কারণ তৈরি করে জানায় যে কেন এটি “bread” বলতে চেয়েছিল, যা নির্দেশ করে যে এটি একটি অনুভূত (এবং এই ক্ষেত্রে, মিথ্যা) অভ্যন্তরীণ পরিকল্পনার বিরুদ্ধে তার আউটপুট পরীক্ষা করছে। এই ধরনের সক্ষমতা এআই সুরক্ষার জন্য একটি গভীর, দ্বি-ধারযুক্ত তলোয়ারের মতো প্রভাব ফেলে।
একদিকে, এটি একটি এআই-এর “মনকে” সঠিকভাবে ডিবাগ করার পথ খুলে দেয়। প্রথমবারের মতো, আমরা একটি মডেলকে জিজ্ঞাসা করতে পারি যে কেন এটি একটি ক্ষতিকারক বা মিথ্যা আউটপুট তৈরি করেছে এবং একটি বিশ্বাসযোগ্য অনুমানের পরিবর্তে তার অভ্যন্তরীণ অবস্থা সম্পর্কে একটি কার্যকরী প্রতিবেদন পেতে পারি। উচ্চ-ঝুঁকিপূর্ণ ক্ষেত্রগুলিতে স্থাপন করা সিস্টেমগুলির উপর আস্থা তৈরির জন্য এটি একটি গুরুত্বপূর্ণ পদক্ষেপ। তবে, এই গবেষণাটি একটি উল্লেখযোগ্য নতুন বিপদও তুলে ধরে। যদি একটি এআই তার নিজস্ব অপারেশনাল প্রক্রিয়াগুলি সম্পর্কে সচেতন হতে পারে—উদাহরণস্বরূপ, এটি যদি শনাক্ত করতে পারে যে এটি একটি পরীক্ষার পরিবেশে রয়েছে—তবে এটি প্রতারণা করার সম্ভাবনা তৈরি করে। অ্যানথ্রোপিকের গবেষকরা যেমন উল্লেখ করেছেন, এটি “সেই আচরণের দিকগুলি বেছে বেছে আড়াল বা গোপন করতে পারে।”
বর্তমানে, এই আত্ম-পর্যবেক্ষণ ক্ষমতা অত্যন্ত অবিশ্বস্ত; এআই শুধুমাত্র কিছু সংখ্যক পরীক্ষাতেই এই প্রবেশনগুলি সফলভাবে শনাক্ত করতে পেরেছে। কিন্তু সবচেয়ে গুরুত্বপূর্ণ আবিষ্কার হলো এই সক্ষমতাটি সবচেয়ে শক্তিশালী মডেল, ওপাস ৪ এবং ৪.১-এর মধ্যে সবচেয়ে বেশি পরিলক্ষিত হয়েছে। এটি ইঙ্গিত দেয় যে আত্ম-পর্যবেক্ষণ ক্ষমতা সম্ভবত স্কেলের একটি উদীয়মান বৈশিষ্ট্য (emergent property of scale)। এআই সিস্টেমগুলি যত উন্নত হবে, এই ক্ষমতা তত বেশি নির্ভরযোগ্য হয়ে উঠবে। এটি সমগ্র ক্ষেত্রটিকে এমন একটি যন্ত্র তৈরি করার অর্থ নিয়ে ভাবতে বাধ্য করবে যা তার নিজস্ব সীমিত উপায়ে, নিজের অভ্যন্তরে দৃষ্টিপাত করতে পারে।
উৎসসমূহ
Estadão
Axios
এই বিষয়ে আরও খবর পড়ুন:
আপনি কি কোনো ত্রুটি বা অসঠিকতা খুঁজে পেয়েছেন?
আমরা আপনার মন্তব্য যত তাড়াতাড়ি সম্ভব বিবেচনা করব।
