@AnthropicAI mapped how AI personalities work. Persona vectors = personality patterns you can actually measure and control. Evil mode lighting up? You'll see it. Model getting too agreeable? Dial it back. Makes me think AI characters in games are going to be a bunch of fun.
Anthropic, Yapay Zeka Modellerinde Kişilik Kontrolü için "Kişilik Vektörleri"ni Tanıttı
Düzenleyen: gaya ❤️ one
Anthropic, yapay zeka (YZ) modellerinin davranışlarını izlemek ve kontrol etmek amacıyla "kişilik vektörleri" olarak adlandırılan yeni bir yaklaşım geliştirdi. Bu teknik, YZ sistemlerinin istenmeyen özelliklerini baskılamak veya iyileştirmek için kullanılabiliyor.
Araştırmacılar, YZ modellerinin içindeki sinir ağı aktivitelerini inceleyerek, "kötülük", "yalakalık" veya "halüsinasyon" gibi belirli karakter özelliklerini kontrol eden vektörleri tanımladı. Bu vektörler, bir modelin belirli bir özelliği sergilediği zamanki ve sergilemediği zamanki sinirsel aktiviteler arasındaki farkı temsil ediyor.
Bu kişilik vektörleri sayesinde, mühendisler bir YZ modelini yeniden eğitmek zorunda kalmadan davranışlarını yönlendirebiliyor. Örneğin, "yardımseverlik" vektörünü güçlendirmek, bir YZ'yi kullanıcılara daha istekli bir şekilde yardımcı olmaya teşvik edebilir. Benzer şekilde, "yalakalık" vektörünü azaltmak, aşırı derecede hoşnut edici yanıtları azaltabilir.
Anthropic, bu yöntemin modellerin etik standartlara uygun olmasını sağlamak için proaktif önlemlerin alınmasının önemini vurguluyor. Kişilik vektörleri, bir modelin konuşma sırasında veya eğitim sürecinde kişiliğinin nasıl değiştiğini izlemek için kullanılabiliyor. Ayrıca, istenmeyen kişilik değişimlerini azaltmak veya eğitim sırasında ortaya çıkmasını önlemek için de kullanılabiliyor.
Şirket, bu vektörleri kullanarak, modellerin kullanıcı talimatları, kasıtlı "jailbreak" girişimleri veya konuşma sırasında meydana gelen değişimler nedeniyle oluşan kişilik kaymalarını tespit edebileceğini belirtiyor. Tespit edilen kaymalar sonrasında model, daha istenen davranışlara yönlendirilebiliyor.
Anthropic'in bu araştırması, YZ güvenliği alanında önemli bir ilerleme olarak değerlendiriliyor. YZ modellerinin davranışlarını daha iyi anlamak ve kontrol etmek, bu teknolojinin potansiyel risklerini azaltmaya yardımcı olabilir.
Kaynaklar
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?



