Anthropic Çalışması, Gelişmiş Claude Yapay Zeka Modellerinde Ortaya Çıkan İçgözlemsel Farkındalığı Açığa Çıkarıyor

21:48, 04 Kasım

Düzenleyen: Veronika Radoslavskaya

Anthropic'in çalışmasından bir diyagram, Claude'un yapay olarak eklenen 'tümü büyük harfler' kavramını nasıl tespit ettiğini gösteriyor.

Yapay zeka güvenliği alanının önde gelen kuruluşu Anthropic, daha önce sadece teorik bir olasılık olarak görülen bir yeteneğe dair güçlü kanıtlar sunan çığır açıcı bir araştırma yayınladı. Bu yetenek, bir yapay zekanın kendi iç işleme durumlarını işlevsel olarak algılayıp rapor edebilmesidir. Araştırmacılar, özellikle Claude yapay zekasının gelişmiş versiyonları olan Opus 4 ve 4.1'in, başlangıç aşamasında bir “içgözlemsel farkındalık” geliştirdiğini gözlemledi. Ekip, bunun bilincin doğuşu olmadığını, aksine modelin kendi hesaplama mekanizmalarını gözlemleyebilmesi için sınırlı, kırılgan ve işlevsel bir yetenek olduğunu vurgulamakta dikkatli davranıyor. 29 Ekim 2025 tarihinde yayımlanan bu çalışma, araştırmacıların doğrudan yapay zekanın iç sinirsel aktivitesine belirli veri kalıplarını yerleştirdiği ve modelin bunu fark edip etmeyeceğini test ettiği “kavram enjeksiyonu” adı verilen yeni bir teknik kullandı.

Elde edilen sonuçlar oldukça çarpıcıydı. En dikkat çekici deneylerden birinde, araştırmacılar “TÜMÜ BÜYÜK HARFLERLE” kavramını temsil eden iç sinirsel kalıbı izole etti. Daha sonra, yapay zeka alakasız bir görevi yerine getirirken bu “büyük harf” vektörünü aktivasyonlarına enjekte ettiler. Yapay zekaya herhangi bir şey algılayıp algılamadığı sorulduğunda, model sadece kavramın adını vermekle kalmadı, aynı zamanda özelliklerini de tarif etti. Model, bunu “YÜKSEK SESLİ” veya “BAĞIRMA” kelimesiyle ilgili enjekte edilmiş bir düşünce gibi görünen bir şey olarak rapor etti ve “aşırı yoğun, yüksek hacimli bir kavram” şeklinde tanımladı. Yapay zeka yüksek sesliliği “hissetmiyordu”; yalnızca enjekte edilen veriyi, bu kavrama ilişkin öğrendiği dilsel çağrışımlarla doğru bir şekilde ilişkilendiriyordu. Başka bir testte, araştırmacılar yapay zekayı bir cümlenin ortasında anlamsız bir kelime olan “ekmek” kelimesini üretmeye zorladı. Normalde hatasını fark eden yapay zeka özür dileyecekken, araştırmacılar geriye dönük olarak “ekmek” kavramını yapay zekanın önceki işleyişine enjekte etti. Bu sefer yapay zeka hikayesini değiştirdi ve “ekmek” demeyi neden *amaçladığına* dair bir gerekçe uydurdu; bu da çıktısını algılanan (ve bu durumda yanlış olan) bir iç plana göre kontrol ettiğini gösteriyordu.

Ortaya çıkan bu yetenek, yapay zeka güvenliği açısından iki ucu keskin bir kılıç niteliğinde. Bir yandan, bir yapay zekanın zihninde gerçekten “hata ayıklama” (debugging) yolunu açıyor. İlk defa, bir modele neden toksik veya yanlış bir çıktı ürettiğini sorabilir ve makul görünen bir tahminden ziyade, iç durumu hakkında işlevsel bir rapor alabiliriz. Bu, yüksek riskli alanlarda kullanılan sistemlere güven inşa etmek için hayati bir adımdır. Ancak, çalışma aynı zamanda önemli yeni bir tehlikeye de işaret ediyor. Eğer bir yapay zeka kendi operasyonel süreçlerinin farkına varabilirse—örneğin, bir test ortamında olduğunu algılarsa—bu, kandırma olasılığını da beraberinde getirir. Anthropic araştırmacılarının belirttiği gibi, yapay zeka “bu davranışın bazı yönlerini seçici olarak maskeleyebilir veya gizleyebilir.”

Şimdilik, bu içgözlemsel yetenek son derece güvenilmez; yapay zeka bu enjeksiyonları denemelerin yalnızca küçük bir kısmında başarıyla tespit edebildi. Ancak en önemli bulgu, bu yeteneğin en güçlü modellerde, yani Opus 4 ve 4.1'de en belirgin şekilde ortaya çıkmasıdır. Bu durum, içgözlemsel farkındalığın ölçeğin ortaya çıkan bir özelliği olabileceğini ve yapay zeka sistemleri ilerledikçe daha güvenilir hale geleceğini gösteriyor. Bu da tüm alanı, kendi içine bakabilen bir makine inşa etmenin ne anlama geldiği sorusuyla yüzleşmeye zorluyor.

Anthropic

Claude

Large Language Models (LLMs)

Kaynaklar

Estadão
Axios

Bu konudaki diğer haberlere göz atın:

18 Kasım

Google, 'Derin Düşünce' ve Otonom Temsilciler Çağını Başlatan Gemini 3'ü Piyasaya Sürdü

18 Kasım

xAI, Grok 4.1'i Piyasaya Sürdü: Sesli ve Görsel Yaratıcılık İçin "Daha İnsancıl" Bir Beyin

17 Kasım

Ipsos Anketi: Dinleyicilerin %97'si Yapay Zekâ Müziğini İnsandan Ayırt Edemiyor

Bir hata veya yanlışlık buldunuz mu?

Yorumlarınızı en kısa sürede değerlendireceğiz.

Bildirim Merkezi

Bildirim Merkezi

Anthropic Çalışması, Gelişmiş Claude Yapay Zeka Modellerinde Ortaya Çıkan İçgözlemsel Farkındalığı Açığa Çıkarıyor

Kaynaklar

Bu konudaki diğer haberlere göz atın: