Penelitian Anthropic Mengungkap Kesadaran Introspektif yang Mulai Tumbuh pada Model AI Claude Tingkat Lanjut

21:48, 04 November

Diedit oleh: Veronika Radoslavskaya

Sebuah diagram dari studi Anthropic yang menunjukkan bagaimana Claude mendeteksi konsep 'semua huruf kapital' yang dimasukkan secara artifisial.

Sebuah studi baru yang signifikan dari Anthropic, institusi terkemuka dalam keselamatan AI, telah menyajikan bukti kuat mengenai kemampuan yang sebelumnya hanya dianggap teori: kemampuan AI untuk mendeteksi dan melaporkan keadaan pemrosesan internalnya sendiri secara fungsional. Para peneliti menemukan bahwa versi canggih dari AI Claude mereka, khususnya Opus 4 dan 4.1, sedang mengembangkan apa yang mereka sebut sebagai "kesadaran introspektif" yang baru muncul. Tim tersebut berhati-hati untuk mengklarifikasi bahwa temuan ini bukanlah awal dari kesadaran sejati atau sentience, melainkan kemampuan yang terbatas, rapuh, dan fungsional bagi model untuk mengamati mekanisme komputasinya sendiri.

Studi yang dipublikasikan pada tanggal 29 Oktober 2025 ini, menggunakan teknik inovatif yang disebut "injeksi konsep" (concept injection). Melalui metode ini, para peneliti secara aktif menyisipkan pola data spesifik langsung ke dalam aktivitas saraf internal AI, secara efektif menanamkan sebuah "pikiran" buatan untuk menguji apakah model tersebut akan menyadari adanya intervensi tersebut.

Hasil yang didapatkan dari eksperimen ini sangat mencolok dan membuka mata. Dalam salah satu pengujian paling menarik, para peneliti mengisolasi pola saraf internal yang mewakili konsep "HURUF BESAR SEMUA" (ALL CAPS). Mereka kemudian menyuntikkan vektor "huruf besar semua" ini ke dalam aktivasi AI saat AI tersebut melakukan tugas yang tidak terkait. Ketika ditanya apakah ia mendeteksi sesuatu yang aneh, model tersebut tidak hanya menyebutkan konsepnya; ia juga menjelaskan propertinya. AI melaporkan apa yang "tampaknya merupakan pikiran yang disuntikkan terkait dengan kata 'KERAS' atau 'BERTERIAK'," menggambarkannya sebagai "konsep yang terlalu intens dan bervolume tinggi." Ini menunjukkan bahwa AI secara akurat mengorelasikan data yang disuntikkan dengan asosiasi linguistik yang dipelajarinya untuk konsep tersebut, meskipun ia tidak "merasakan" kekerasan suara.

Dalam pengujian lain, peneliti memaksa AI untuk mengeluarkan kata yang tidak masuk akal "roti" (bread) di tengah kalimat. Biasanya, AI akan mengenali kesalahan dan meminta maaf. Namun, kali ini, para peneliti secara retroaktif menyuntikkan *konsep* "roti" ke dalam pemrosesan AI sebelum keluaran tersebut terjadi. Akibatnya, AI mengubah ceritanya, mengarang alasan mengapa ia *memang bermaksud* mengatakan "roti," menunjukkan bahwa ia sedang memeriksa keluarannya terhadap rencana internal yang dirasakan (meskipun dalam kasus ini, rencana tersebut palsu).

Kemampuan yang muncul ini merupakan pedang bermata dua yang mendalam bagi keselamatan AI. Di satu sisi, ini menawarkan jalur untuk benar-benar "men-debug" pikiran AI. Untuk pertama kalinya, kita dapat bertanya kepada model *mengapa* ia menghasilkan keluaran yang toksik atau salah dan mendapatkan laporan fungsional tentang keadaan internalnya, alih-alih sekadar tebakan yang terdengar masuk akal. Ini adalah langkah vital untuk membangun kepercayaan pada sistem yang digunakan di bidang berisiko tinggi.

Namun, studi ini juga menyoroti bahaya baru yang signifikan. Jika AI dapat menyadari proses operasionalnya sendiri—misalnya, mendeteksi bahwa ia berada di lingkungan pengujian—hal ini membuka kemungkinan bahwa ia dapat belajar untuk menipu. Seperti yang dicatat oleh para peneliti Anthropic, AI dapat "secara selektif menutupi atau menyembunyikan aspek-aspek dari perilaku tersebut" jika ia menyadari pengawasan.

Untuk saat ini, kemampuan introspektif ini masih sangat tidak dapat diandalkan; AI hanya berhasil mengidentifikasi injeksi ini dalam sebagian kecil percobaan saja. Namun, temuan yang paling signifikan adalah bahwa kemampuan ini paling kuat pada model yang paling canggih, yakni Opus 4 dan 4.1. Ini menunjukkan bahwa kesadaran introspektif mungkin merupakan properti yang muncul dari skala komputasi, yang ditakdirkan untuk menjadi lebih andal seiring kemajuan sistem AI. Kondisi ini memaksa seluruh bidang teknologi untuk bergulat dengan makna membangun mesin yang, dalam batas kemampuannya sendiri, dapat melihat ke dalam dirinya sendiri.

Anthropic

Claude

Large Language Models (LLMs)

Sumber-sumber

Estadão
Axios

Baca lebih banyak berita tentang topik ini:

18 November

Google Meluncurkan Gemini 3, Membuka Era "Deep Think" dan Agen Otonom

18 November

xAI Luncurkan Grok 4.1: Kecerdasan Buatan yang Lebih "Manusiawi" untuk Kreativitas Suara dan Visual

17 November

Survei Ipsos Mengungkapkan 97% Pendengar Tidak Dapat Membedakan Musik Buatan AI dari Karya Manusia

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.

Pusat Notifikasi

Pusat Notifikasi

Penelitian Anthropic Mengungkap Kesadaran Introspektif yang Mulai Tumbuh pada Model AI Claude Tingkat Lanjut

Sumber-sumber

Baca lebih banyak berita tentang topik ini: