@AnthropicAI mapped how AI personalities work. Persona vectors = personality patterns you can actually measure and control. Evil mode lighting up? You'll see it. Model getting too agreeable? Dial it back. Makes me think AI characters in games are going to be a bunch of fun.
Anthropic Memperkenalkan 'Vektor Persona' untuk Pengendalian Kepribadian AI dan Pencegahan Perubahan Berbahaya
Diedit oleh: gaya ❤️ one
Anthropic telah mengembangkan metode baru yang disebut 'vektor persona' untuk memantau dan mengendalikan ciri-ciri kepribadian dalam model bahasa besar (LLM). Metode ini memungkinkan identifikasi dan pengendalian sifat-sifat seperti kejahatan, sikap menjilat, dan kecenderungan untuk berhalusinasi dalam model AI.
Vektor persona berfungsi dengan mengidentifikasi pola aktivitas dalam jaringan saraf model yang mengontrol sifat-sifat tertentu. Dengan menggunakan vektor ini, pengembang dapat memantau perubahan kepribadian model selama penggunaan dan pelatihan, serta mencegah munculnya sifat-sifat yang tidak diinginkan. Selain itu, vektor persona dapat digunakan untuk mengidentifikasi data pelatihan yang berpotensi menyebabkan perubahan kepribadian yang tidak diinginkan.
Metode ini telah diuji pada model sumber terbuka seperti Qwen 2.5-7B-Instruct dan Llama-3.1-8B-Instruct, menunjukkan efektivitasnya dalam berbagai arsitektur model. Pendekatan ini menawarkan cara yang lebih transparan dan dapat dipahami untuk mengelola perilaku model AI, yang penting untuk memastikan keselarasan dengan nilai-nilai manusia dan meningkatkan keselamatan penggunaan AI.
Sumber-sumber
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?



