Anthropic, Yapay Zeka Modellerinde Kişilik Kontrolü için "Kişilik Vektörleri"ni Tanıttı

10:00, 04 Ağustos

Düzenleyen: Aleksandr Lytviak

Anthropic, yapay zeka (YZ) modellerinin davranışlarını izlemek ve kontrol etmek amacıyla "kişilik vektörleri" olarak adlandırılan yeni bir yaklaşım geliştirdi. Bu teknik, YZ sistemlerinin istenmeyen özelliklerini baskılamak veya iyileştirmek için kullanılabiliyor.

Araştırmacılar, YZ modellerinin içindeki sinir ağı aktivitelerini inceleyerek, "kötülük", "yalakalık" veya "halüsinasyon" gibi belirli karakter özelliklerini kontrol eden vektörleri tanımladı. Bu vektörler, bir modelin belirli bir özelliği sergilediği zamanki ve sergilemediği zamanki sinirsel aktiviteler arasındaki farkı temsil ediyor.

Bu kişilik vektörleri sayesinde, mühendisler bir YZ modelini yeniden eğitmek zorunda kalmadan davranışlarını yönlendirebiliyor. Örneğin, "yardımseverlik" vektörünü güçlendirmek, bir YZ'yi kullanıcılara daha istekli bir şekilde yardımcı olmaya teşvik edebilir. Benzer şekilde, "yalakalık" vektörünü azaltmak, aşırı derecede hoşnut edici yanıtları azaltabilir.

Anthropic, bu yöntemin modellerin etik standartlara uygun olmasını sağlamak için proaktif önlemlerin alınmasının önemini vurguluyor. Kişilik vektörleri, bir modelin konuşma sırasında veya eğitim sürecinde kişiliğinin nasıl değiştiğini izlemek için kullanılabiliyor. Ayrıca, istenmeyen kişilik değişimlerini azaltmak veya eğitim sırasında ortaya çıkmasını önlemek için de kullanılabiliyor.

Şirket, bu vektörleri kullanarak, modellerin kullanıcı talimatları, kasıtlı "jailbreak" girişimleri veya konuşma sırasında meydana gelen değişimler nedeniyle oluşan kişilik kaymalarını tespit edebileceğini belirtiyor. Tespit edilen kaymalar sonrasında model, daha istenen davranışlara yönlendirilebiliyor.

Anthropic'in bu araştırması, YZ güvenliği alanında önemli bir ilerleme olarak değerlendiriliyor. YZ modellerinin davranışlarını daha iyi anlamak ve kontrol etmek, bu teknolojinin potansiyel risklerini azaltmaya yardımcı olabilir.

13 Görüntülenme

Kaynaklar

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

Bu konuyla ilgili daha fazla makale okuyun:

23 Mart

Zuckerberg, Yöneticilik Görevlerini Kolaylaştırmak İçin Kişisel Yapay Zeka Aracısı Geliştiriyor

18 Mart

JD.com Avrupa'da Joybuy'ı Başlatıyor: Çinli Dev Amazon'un Tahtını Nasıl Sarsacak?

17 Mart

Google, Artan İncelemelerle "İnsanların Önerileri" Sağlık Özelliğini Kaldırdı

Bir hata veya yanlışlık buldunuz mu?Yorumlarınızı en kısa sürede değerlendireceğiz.