Anthropic, yapay zeka (YZ) modellerinin davranışlarını izlemek ve kontrol etmek amacıyla "kişilik vektörleri" olarak adlandırılan yeni bir yaklaşım geliştirdi. Bu teknik, YZ sistemlerinin istenmeyen özelliklerini baskılamak veya iyileştirmek için kullanılabiliyor.
Araştırmacılar, YZ modellerinin içindeki sinir ağı aktivitelerini inceleyerek, "kötülük", "yalakalık" veya "halüsinasyon" gibi belirli karakter özelliklerini kontrol eden vektörleri tanımladı. Bu vektörler, bir modelin belirli bir özelliği sergilediği zamanki ve sergilemediği zamanki sinirsel aktiviteler arasındaki farkı temsil ediyor.
Bu kişilik vektörleri sayesinde, mühendisler bir YZ modelini yeniden eğitmek zorunda kalmadan davranışlarını yönlendirebiliyor. Örneğin, "yardımseverlik" vektörünü güçlendirmek, bir YZ'yi kullanıcılara daha istekli bir şekilde yardımcı olmaya teşvik edebilir. Benzer şekilde, "yalakalık" vektörünü azaltmak, aşırı derecede hoşnut edici yanıtları azaltabilir.
Anthropic, bu yöntemin modellerin etik standartlara uygun olmasını sağlamak için proaktif önlemlerin alınmasının önemini vurguluyor. Kişilik vektörleri, bir modelin konuşma sırasında veya eğitim sürecinde kişiliğinin nasıl değiştiğini izlemek için kullanılabiliyor. Ayrıca, istenmeyen kişilik değişimlerini azaltmak veya eğitim sırasında ortaya çıkmasını önlemek için de kullanılabiliyor.
Şirket, bu vektörleri kullanarak, modellerin kullanıcı talimatları, kasıtlı "jailbreak" girişimleri veya konuşma sırasında meydana gelen değişimler nedeniyle oluşan kişilik kaymalarını tespit edebileceğini belirtiyor. Tespit edilen kaymalar sonrasında model, daha istenen davranışlara yönlendirilebiliyor.
Anthropic'in bu araştırması, YZ güvenliği alanında önemli bir ilerleme olarak değerlendiriliyor. YZ modellerinin davranışlarını daha iyi anlamak ve kontrol etmek, bu teknolojinin potansiyel risklerini azaltmaya yardımcı olabilir.