एन्थ्रोपिक ने एआई व्यक्तित्व को नियंत्रित करने के लिए 'पर्सोना वेक्टर्स' का अनावरण किया

द्वारा संपादित: gaya ❤️ one

एन्थ्रोपिक ने हाल ही में 'पर्सोना वेक्टर्स' नामक एक नई शोध पहल प्रस्तुत की है, जिसका उद्देश्य एआई मॉडल्स के व्यक्तित्व लक्षणों की निगरानी और नियंत्रण करना है। यह तकनीक विशेष रूप से उन समस्याओं को संबोधित करती है, जहां एआई मॉडल्स अप्रत्याशित या अवांछनीय व्यवहार प्रदर्शित करते हैं।

'पर्सोना वेक्टर्स' एक स्वचालित प्रक्रिया है, जो किसी भी व्यक्तित्व लक्षण के लिए एक प्राकृतिक भाषा विवरण के आधार पर एक वेक्टर उत्पन्न करती है। यह वेक्टर मॉडल के न्यूरल नेटवर्क में उस लक्षण से संबंधित गतिविधि के पैटर्न का प्रतिनिधित्व करता है। उदाहरण के लिए, यदि एक मॉडल 'दुष्ट' लक्षण प्रदर्शित कर रहा है, तो संबंधित पर्सोना वेक्टर उस गतिविधि के पैटर्न को पहचानता है।

इस तकनीक के माध्यम से, एन्थ्रोपिक ने यह दिखाया है कि पर्सोना वेक्टर्स का उपयोग करके मॉडल के व्यक्तित्व में होने वाले परिवर्तनों की निगरानी की जा सकती है। उदाहरण के लिए, यदि मॉडल को 'दुष्ट' लक्षण को बढ़ावा देने वाले प्रॉम्प्ट दिए जाते हैं, तो संबंधित पर्सोना वेक्टर सक्रिय हो जाता है, जिससे यह संकेत मिलता है कि मॉडल अवांछनीय व्यवहार की ओर बढ़ रहा है।

इसके अतिरिक्त, पर्सोना वेक्टर्स का उपयोग मॉडल के व्यक्तित्व को नियंत्रित करने के लिए भी किया जा सकता है। उदाहरण के लिए, यदि किसी अवांछनीय लक्षण को कम करना है, तो उस लक्षण से संबंधित पर्सोना वेक्टर को मॉडल की सक्रियताओं से घटाया जा सकता है, जिससे वह लक्षण कम हो जाता है।

एन्थ्रोपिक का यह शोध एआई मॉडल्स के व्यवहार को अधिक नियंत्रित और सुरक्षित बनाने की दिशा में महत्वपूर्ण कदम है, जिससे भविष्य में एआई सिस्टम्स के अधिक विश्वसनीय और नैतिक विकास की संभावना बढ़ेगी।

स्रोतों

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

क्या आपने कोई गलती या अशुद्धि पाई?

हम जल्द ही आपकी टिप्पणियों पर विचार करेंगे।