एन्थ्रोपिक ने एआई व्यक्तित्व को नियंत्रित करने के लिए 'पर्सोना वेक्टर्स' का अनावरण किया
द्वारा संपादित: gaya ❤️ one
एन्थ्रोपिक ने हाल ही में 'पर्सोना वेक्टर्स' नामक एक नई शोध पहल प्रस्तुत की है, जिसका उद्देश्य एआई मॉडल्स के व्यक्तित्व लक्षणों की निगरानी और नियंत्रण करना है। यह तकनीक विशेष रूप से उन समस्याओं को संबोधित करती है, जहां एआई मॉडल्स अप्रत्याशित या अवांछनीय व्यवहार प्रदर्शित करते हैं।
'पर्सोना वेक्टर्स' एक स्वचालित प्रक्रिया है, जो किसी भी व्यक्तित्व लक्षण के लिए एक प्राकृतिक भाषा विवरण के आधार पर एक वेक्टर उत्पन्न करती है। यह वेक्टर मॉडल के न्यूरल नेटवर्क में उस लक्षण से संबंधित गतिविधि के पैटर्न का प्रतिनिधित्व करता है। उदाहरण के लिए, यदि एक मॉडल 'दुष्ट' लक्षण प्रदर्शित कर रहा है, तो संबंधित पर्सोना वेक्टर उस गतिविधि के पैटर्न को पहचानता है।
इस तकनीक के माध्यम से, एन्थ्रोपिक ने यह दिखाया है कि पर्सोना वेक्टर्स का उपयोग करके मॉडल के व्यक्तित्व में होने वाले परिवर्तनों की निगरानी की जा सकती है। उदाहरण के लिए, यदि मॉडल को 'दुष्ट' लक्षण को बढ़ावा देने वाले प्रॉम्प्ट दिए जाते हैं, तो संबंधित पर्सोना वेक्टर सक्रिय हो जाता है, जिससे यह संकेत मिलता है कि मॉडल अवांछनीय व्यवहार की ओर बढ़ रहा है।
इसके अतिरिक्त, पर्सोना वेक्टर्स का उपयोग मॉडल के व्यक्तित्व को नियंत्रित करने के लिए भी किया जा सकता है। उदाहरण के लिए, यदि किसी अवांछनीय लक्षण को कम करना है, तो उस लक्षण से संबंधित पर्सोना वेक्टर को मॉडल की सक्रियताओं से घटाया जा सकता है, जिससे वह लक्षण कम हो जाता है।
एन्थ्रोपिक का यह शोध एआई मॉडल्स के व्यवहार को अधिक नियंत्रित और सुरक्षित बनाने की दिशा में महत्वपूर्ण कदम है, जिससे भविष्य में एआई सिस्टम्स के अधिक विश्वसनीय और नैतिक विकास की संभावना बढ़ेगी।
स्रोतों
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?
इस विषय पर और अधिक समाचार पढ़ें:
क्या आपने कोई गलती या अशुद्धि पाई?
हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।
