Anthropic, Yapay Zeka Modellerinde Kişilik Kontrolü için "Kişilik Vektörleri"ni Tanıttı

Düzenleyen: gaya ❤️ one

Anthropic, yapay zeka (YZ) modellerinin davranışlarını izlemek ve kontrol etmek amacıyla "kişilik vektörleri" olarak adlandırılan yeni bir yaklaşım geliştirdi. Bu teknik, YZ sistemlerinin istenmeyen özelliklerini baskılamak veya iyileştirmek için kullanılabiliyor.

Araştırmacılar, YZ modellerinin içindeki sinir ağı aktivitelerini inceleyerek, "kötülük", "yalakalık" veya "halüsinasyon" gibi belirli karakter özelliklerini kontrol eden vektörleri tanımladı. Bu vektörler, bir modelin belirli bir özelliği sergilediği zamanki ve sergilemediği zamanki sinirsel aktiviteler arasındaki farkı temsil ediyor.

Bu kişilik vektörleri sayesinde, mühendisler bir YZ modelini yeniden eğitmek zorunda kalmadan davranışlarını yönlendirebiliyor. Örneğin, "yardımseverlik" vektörünü güçlendirmek, bir YZ'yi kullanıcılara daha istekli bir şekilde yardımcı olmaya teşvik edebilir. Benzer şekilde, "yalakalık" vektörünü azaltmak, aşırı derecede hoşnut edici yanıtları azaltabilir.

Anthropic, bu yöntemin modellerin etik standartlara uygun olmasını sağlamak için proaktif önlemlerin alınmasının önemini vurguluyor. Kişilik vektörleri, bir modelin konuşma sırasında veya eğitim sürecinde kişiliğinin nasıl değiştiğini izlemek için kullanılabiliyor. Ayrıca, istenmeyen kişilik değişimlerini azaltmak veya eğitim sırasında ortaya çıkmasını önlemek için de kullanılabiliyor.

Şirket, bu vektörleri kullanarak, modellerin kullanıcı talimatları, kasıtlı "jailbreak" girişimleri veya konuşma sırasında meydana gelen değişimler nedeniyle oluşan kişilik kaymalarını tespit edebileceğini belirtiyor. Tespit edilen kaymalar sonrasında model, daha istenen davranışlara yönlendirilebiliyor.

Anthropic'in bu araştırması, YZ güvenliği alanında önemli bir ilerleme olarak değerlendiriliyor. YZ modellerinin davranışlarını daha iyi anlamak ve kontrol etmek, bu teknolojinin potansiyel risklerini azaltmaya yardımcı olabilir.

Kaynaklar

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Bir hata veya yanlışlık buldunuz mu?

Yorumlarınızı en kısa sürede değerlendireceğiz.

Anthropic, Yapay Zeka Modellerinde Kişilik... | Gaya One