एन्थ्रोपिक ने हाल ही में 'पर्सोना वेक्टर्स' नामक एक नई शोध पहल प्रस्तुत की है, जिसका उद्देश्य एआई मॉडल्स के व्यक्तित्व लक्षणों की निगरानी और नियंत्रण करना है। यह तकनीक विशेष रूप से उन समस्याओं को संबोधित करती है, जहां एआई मॉडल्स अप्रत्याशित या अवांछनीय व्यवहार प्रदर्शित करते हैं।
'पर्सोना वेक्टर्स' एक स्वचालित प्रक्रिया है, जो किसी भी व्यक्तित्व लक्षण के लिए एक प्राकृतिक भाषा विवरण के आधार पर एक वेक्टर उत्पन्न करती है। यह वेक्टर मॉडल के न्यूरल नेटवर्क में उस लक्षण से संबंधित गतिविधि के पैटर्न का प्रतिनिधित्व करता है। उदाहरण के लिए, यदि एक मॉडल 'दुष्ट' लक्षण प्रदर्शित कर रहा है, तो संबंधित पर्सोना वेक्टर उस गतिविधि के पैटर्न को पहचानता है।
इस तकनीक के माध्यम से, एन्थ्रोपिक ने यह दिखाया है कि पर्सोना वेक्टर्स का उपयोग करके मॉडल के व्यक्तित्व में होने वाले परिवर्तनों की निगरानी की जा सकती है। उदाहरण के लिए, यदि मॉडल को 'दुष्ट' लक्षण को बढ़ावा देने वाले प्रॉम्प्ट दिए जाते हैं, तो संबंधित पर्सोना वेक्टर सक्रिय हो जाता है, जिससे यह संकेत मिलता है कि मॉडल अवांछनीय व्यवहार की ओर बढ़ रहा है।
इसके अतिरिक्त, पर्सोना वेक्टर्स का उपयोग मॉडल के व्यक्तित्व को नियंत्रित करने के लिए भी किया जा सकता है। उदाहरण के लिए, यदि किसी अवांछनीय लक्षण को कम करना है, तो उस लक्षण से संबंधित पर्सोना वेक्टर को मॉडल की सक्रियताओं से घटाया जा सकता है, जिससे वह लक्षण कम हो जाता है।
एन्थ्रोपिक का यह शोध एआई मॉडल्स के व्यवहार को अधिक नियंत्रित और सुरक्षित बनाने की दिशा में महत्वपूर्ण कदम है, जिससे भविष्य में एआई सिस्टम्स के अधिक विश्वसनीय और नैतिक विकास की संभावना बढ़ेगी।