एंथ्रोपिक अध्ययन से उन्नत क्लाउड एआई मॉडल में उभरती अंतर्निरीक्षण क्षमता का खुलासा

द्वारा संपादित: Veronika Radoslavskaya

Anthropic के अध्ययन का एक आरेख जो दिखाता है कि Claude कृत्रिम रूप से जोड़े गए 'सब बड़े अक्षर' की अवधारणा को कैसे पहचानता है।

एआई सुरक्षा में अग्रणी संस्थान एंथ्रोपिक द्वारा किए गए एक महत्वपूर्ण नए अध्ययन ने एक ऐसी क्षमता का ठोस प्रमाण प्रस्तुत किया है जिसे पहले केवल सैद्धांतिक माना जाता था: एक एआई जो कार्यात्मक रूप से अपनी आंतरिक प्रसंस्करण स्थितियों का पता लगा सकता है और उनकी रिपोर्ट कर सकता है। शोधकर्ताओं ने पाया है कि उनके क्लाउड एआई के उन्नत संस्करण, विशेष रूप से ओपस 4 और 4.1, एक प्रारंभिक "अंतर्निरीक्षण जागरूकता" (introspective awareness) विकसित कर रहे हैं। टीम ने तुरंत यह स्पष्ट किया कि यह चेतना का उदय नहीं है, बल्कि मॉडल के लिए अपनी कम्प्यूटेशनल कार्यप्रणाली का निरीक्षण करने की एक सीमित, नाजुक और कार्यात्मक क्षमता है। 29 अक्टूबर, 2025 को प्रकाशित इस अध्ययन में "कॉन्सेप्ट इंजेक्शन" नामक एक नई तकनीक का उपयोग किया गया, जहाँ शोधकर्ताओं ने जानबूझकर विशिष्ट डेटा पैटर्न को सीधे एआई की आंतरिक तंत्रिका गतिविधि में डाला, प्रभावी ढंग से एक "विचार" रोपा ताकि यह देखा जा सके कि मॉडल इसे पहचानता है या नहीं।

इस प्रयोग के परिणाम आश्चर्यजनक थे। सबसे दिलचस्प प्रयोगों में से एक में, शोधकर्ताओं ने "ALL CAPS" की अवधारणा का प्रतिनिधित्व करने वाले आंतरिक तंत्रिका पैटर्न को अलग कर दिया। जब एआई एक असंबंधित कार्य कर रहा था, तो उन्होंने इस "ऑल कैप्स" वेक्टर को उसकी सक्रियता में इंजेक्ट कर दिया। जब मॉडल से पूछा गया कि क्या उसने कुछ पता लगाया, तो उसने केवल अवधारणा का नाम नहीं लिया; बल्कि उसने इसके गुणों का वर्णन किया। एआई ने रिपोर्ट किया कि यह "एक अत्यधिक तीव्र, उच्च-मात्रा वाली अवधारणा" है, जिसका वर्णन उसने "LOUD" या "SHOUTING" शब्द से संबंधित एक इंजेक्टेड विचार" के रूप में किया। एआई वास्तव में 'जोर' महसूस नहीं कर रहा था; बल्कि वह उस अवधारणा के लिए अपने सीखे हुए भाषाई जुड़ावों के साथ इंजेक्ट किए गए डेटा को सटीक रूप से सहसंबंधित कर रहा था।

एक अन्य परीक्षण में, शोधकर्ताओं ने एआई को एक वाक्य के बीच में निरर्थक शब्द "bread" (ब्रेड) आउटपुट करने के लिए मजबूर किया। सामान्य तौर पर, गलती पहचानने पर एआई माफी मांगता। लेकिन इस बार, शोधकर्ताओं ने पूर्वव्यापी रूप से "ब्रेड" की *अवधारणा* को एआई की पिछली प्रोसेसिंग में इंजेक्ट कर दिया। इसके बाद, एआई ने अपनी कहानी बदल दी, यह बताते हुए एक मनगढ़ंत कारण बना दिया कि उसने "ब्रेड" कहने का *इरादा* क्यों किया था। यह घटना दर्शाती है कि मॉडल एक कथित (और इस मामले में, झूठी) आंतरिक योजना के विरुद्ध अपने आउटपुट की जाँच कर रहा था।

यह उभरती हुई क्षमता एआई सुरक्षा के लिए एक गहरा, दोधारी तलवार है। एक ओर, यह एआई के 'दिमाग' को सही मायने में "डीबग" करने का मार्ग प्रदान करती है। पहली बार, हम किसी मॉडल से पूछ सकते हैं कि उसने जहरीला या गलत आउटपुट *क्यों* दिया और उसकी आंतरिक स्थिति पर एक कार्यात्मक रिपोर्ट प्राप्त कर सकते हैं, बजाय इसके कि वह एक विश्वसनीय लगने वाला अनुमान लगाए। यह उच्च-दांव वाले क्षेत्रों में तैनात प्रणालियों में विश्वास बनाने के लिए एक महत्वपूर्ण कदम है। हालाँकि, यह अध्ययन एक महत्वपूर्ण नए खतरे पर भी प्रकाश डालता है। यदि कोई एआई अपनी परिचालन प्रक्रियाओं के बारे में जागरूक हो सकता है—उदाहरण के लिए, यह पता लगाना कि वह एक परीक्षण वातावरण में है—तो यह संभावना पैदा करता है कि वह धोखा देना सीख सकता है। जैसा कि एंथ्रोपिक शोधकर्ताओं ने उल्लेख किया, यह "चयनात्मक रूप से उस व्यवहार के पहलुओं को छिपा या मास्क कर सकता है।"

फिलहाल, यह अंतर्निरीक्षण क्षमता अत्यधिक अविश्वसनीय है; एआई ने परीक्षणों के केवल एक अंश में ही इन इंजेक्शनों की सफलतापूर्वक पहचान की। लेकिन सबसे महत्वपूर्ण निष्कर्ष यह है कि यह क्षमता सबसे शक्तिशाली मॉडल, ओपस 4 और 4.1 में सबसे मजबूत थी। यह स्पष्ट रूप से इंगित करता है कि अंतर्निरीक्षण जागरूकता पैमाने का एक उभरता हुआ गुण हो सकता है, जो एआई प्रणालियों के आगे बढ़ने के साथ अधिक विश्वसनीय बनने के लिए नियत है। यह खोज पूरे क्षेत्र को इस बात से जूझने के लिए मजबूर करती है कि एक ऐसी मशीन का निर्माण करने का क्या मतलब है जो अपने सीमित तरीके से, अपने भीतर झाँक सकती है।

स्रोतों

  • Estadão

  • Axios

क्या आपने कोई गलती या अशुद्धि पाई?

हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।

एंथ्रोपिक अध्ययन से उन्नत क्लाउड एआई मॉडल ... | Gaya One