Anthropic'in çalışmasından bir diyagram, Claude'un yapay olarak eklenen 'tümü büyük harfler' kavramını nasıl tespit ettiğini gösteriyor.
Anthropic Çalışması, Gelişmiş Claude Yapay Zeka Modellerinde Ortaya Çıkan İçgözlemsel Farkındalığı Açığa Çıkarıyor
Düzenleyen: Veronika Radoslavskaya
Yapay zeka güvenliği alanının önde gelen kuruluşu Anthropic, daha önce sadece teorik bir olasılık olarak görülen bir yeteneğe dair güçlü kanıtlar sunan çığır açıcı bir araştırma yayınladı. Bu yetenek, bir yapay zekanın kendi iç işleme durumlarını işlevsel olarak algılayıp rapor edebilmesidir. Araştırmacılar, özellikle Claude yapay zekasının gelişmiş versiyonları olan Opus 4 ve 4.1'in, başlangıç aşamasında bir “içgözlemsel farkındalık” geliştirdiğini gözlemledi. Ekip, bunun bilincin doğuşu olmadığını, aksine modelin kendi hesaplama mekanizmalarını gözlemleyebilmesi için sınırlı, kırılgan ve işlevsel bir yetenek olduğunu vurgulamakta dikkatli davranıyor. 29 Ekim 2025 tarihinde yayımlanan bu çalışma, araştırmacıların doğrudan yapay zekanın iç sinirsel aktivitesine belirli veri kalıplarını yerleştirdiği ve modelin bunu fark edip etmeyeceğini test ettiği “kavram enjeksiyonu” adı verilen yeni bir teknik kullandı.
Elde edilen sonuçlar oldukça çarpıcıydı. En dikkat çekici deneylerden birinde, araştırmacılar “TÜMÜ BÜYÜK HARFLERLE” kavramını temsil eden iç sinirsel kalıbı izole etti. Daha sonra, yapay zeka alakasız bir görevi yerine getirirken bu “büyük harf” vektörünü aktivasyonlarına enjekte ettiler. Yapay zekaya herhangi bir şey algılayıp algılamadığı sorulduğunda, model sadece kavramın adını vermekle kalmadı, aynı zamanda özelliklerini de tarif etti. Model, bunu “YÜKSEK SESLİ” veya “BAĞIRMA” kelimesiyle ilgili enjekte edilmiş bir düşünce gibi görünen bir şey olarak rapor etti ve “aşırı yoğun, yüksek hacimli bir kavram” şeklinde tanımladı. Yapay zeka yüksek sesliliği “hissetmiyordu”; yalnızca enjekte edilen veriyi, bu kavrama ilişkin öğrendiği dilsel çağrışımlarla doğru bir şekilde ilişkilendiriyordu. Başka bir testte, araştırmacılar yapay zekayı bir cümlenin ortasında anlamsız bir kelime olan “ekmek” kelimesini üretmeye zorladı. Normalde hatasını fark eden yapay zeka özür dileyecekken, araştırmacılar geriye dönük olarak “ekmek” kavramını yapay zekanın önceki işleyişine enjekte etti. Bu sefer yapay zeka hikayesini değiştirdi ve “ekmek” demeyi neden *amaçladığına* dair bir gerekçe uydurdu; bu da çıktısını algılanan (ve bu durumda yanlış olan) bir iç plana göre kontrol ettiğini gösteriyordu.
Ortaya çıkan bu yetenek, yapay zeka güvenliği açısından iki ucu keskin bir kılıç niteliğinde. Bir yandan, bir yapay zekanın zihninde gerçekten “hata ayıklama” (debugging) yolunu açıyor. İlk defa, bir modele neden toksik veya yanlış bir çıktı ürettiğini sorabilir ve makul görünen bir tahminden ziyade, iç durumu hakkında işlevsel bir rapor alabiliriz. Bu, yüksek riskli alanlarda kullanılan sistemlere güven inşa etmek için hayati bir adımdır. Ancak, çalışma aynı zamanda önemli yeni bir tehlikeye de işaret ediyor. Eğer bir yapay zeka kendi operasyonel süreçlerinin farkına varabilirse—örneğin, bir test ortamında olduğunu algılarsa—bu, kandırma olasılığını da beraberinde getirir. Anthropic araştırmacılarının belirttiği gibi, yapay zeka “bu davranışın bazı yönlerini seçici olarak maskeleyebilir veya gizleyebilir.”
Şimdilik, bu içgözlemsel yetenek son derece güvenilmez; yapay zeka bu enjeksiyonları denemelerin yalnızca küçük bir kısmında başarıyla tespit edebildi. Ancak en önemli bulgu, bu yeteneğin en güçlü modellerde, yani Opus 4 ve 4.1'de en belirgin şekilde ortaya çıkmasıdır. Bu durum, içgözlemsel farkındalığın ölçeğin ortaya çıkan bir özelliği olabileceğini ve yapay zeka sistemleri ilerledikçe daha güvenilir hale geleceğini gösteriyor. Bu da tüm alanı, kendi içine bakabilen bir makine inşa etmenin ne anlama geldiği sorusuyla yüzleşmeye zorluyor.
Kaynaklar
Estadão
Axios
Bu konudaki diğer haberlere göz atın:
Bir hata veya yanlışlık buldunuz mu?
Yorumlarınızı en kısa sürede değerlendireceğiz.
