OpenAI Membuka Jalan Memahami AI Melalui Riset Model Jaringan Saraf Jarang Terbaru
Penulis: Veronika Radoslavskaya
Jaringan saraf kompleks yang menjadi inti dari kecerdasan buatan modern, atau yang dikenal sebagai Model Bahasa Besar (LLM), telah lama dianggap sebagai “kotak hitam.” Misteri mengenai cara kerja internal LLM ini bahkan menjadi tantangan serius bagi para penciptanya. Meskipun kita menyaksikan hasil yang mengesankan dari LLM, bagaimana tepatnya model-model ini sampai pada kesimpulan tersebut tetap menjadi rahasia yang belum terpecahkan. Baru-baru ini, laporan penelitian yang diterbitkan oleh OpenAI menandai kemajuan signifikan dalam bidang interpretasi, berhasil memperkenalkan jenis model eksperimental baru yang transparan.
Fokus utama dari studi ini adalah transformer kecil jenis “decoder-only,” sebuah arsitektur spesifik yang dilatih secara eksklusif menggunakan kode Python. Penting untuk digarisbawahi bahwa model-model ini bukanlah ditujukan untuk penggunaan publik secara luas; melainkan, mereka adalah instrumen khusus yang diciptakan untuk analisis ilmiah mendalam. Inovasi kunci yang diperkenalkan adalah metodologi yang dinamakan “weight-sparsing” (pengurangan bobot). Teknik ini secara paksa membatasi penggunaan koneksi internal model, menihilkan lebih dari 99,9% dari total koneksi yang ada.
Pengurangan bobot secara paksa ini menghasilkan efek yang mencengangkan. Dalam model standar yang padat, pelaksanaan satu fungsi—misalnya, mendeteksi bug atau kesalahan perangkat lunak—membutuhkan keterlibatan jaringan koneksi yang luas dan rumit. Sebaliknya, pada model yang baru dan jarang ini, fungsi yang sama diisolasi menjadi “sirkuit” yang terpisah, sangat kecil, dan mudah dipahami. Para ilmuwan menemukan bahwa sirkuit-sirkuit ini ternyata sekitar 16 kali lebih kecil dibandingkan dengan model padat yang sebanding. Temuan ini memungkinkan peneliti untuk mengidentifikasi secara tepat mekanisme di balik perilaku AI, yang merupakan lompatan besar bagi “interpretasi mekanistik”—ilmu yang mempelajari proses berpikir kecerdasan buatan.
Implikasi dari penemuan ini terhadap keamanan dan kepercayaan terhadap AI sangatlah mendalam. Jika perilaku berbahaya, seperti pembuatan kode program yang rentan, dapat dilacak hingga sirkuit spesifik yang terisolasi, maka secara teori, perilaku tersebut dapat “diablasi” atau dihilangkan melalui operasi bedah. Pendekatan semacam ini menawarkan kontrol keamanan yang jauh lebih fundamental dan akurat dibandingkan sekadar menerapkan pembatas eksternal (guardrails) setelah model selesai dibangun. Ini memungkinkan intervensi langsung pada akar masalah, bukan hanya pada gejala luarnya.
Meskipun demikian, penting untuk dipahami bahwa model yang jarang (sparse models) ini tidak akan menggantikan LLM kuat yang ada saat ini. Model-model ini sengaja dibatasi dan, relatif terhadap ukurannya yang kecil, sangat mahal serta tidak efisien dalam proses pelatihannya. Nilai sejatinya terletak pada fungsinya sebagai “organisme model”—sistem sederhana, mirip dengan yang digunakan dalam biologi, yang memungkinkan para ilmuwan memahami prinsip-prinsip fundamental. Penelitian ini meletakkan fondasi yang sangat penting. Ada harapan besar bahwa di masa depan, “jembatan” dapat dibangun dari sirkuit sederhana yang mudah dipahami ini menuju penguraian model-model besar, kompleks, dan padat yang kini sedang mengubah dunia kita.
Baca lebih banyak berita tentang topik ini:
Apakah Anda menemukan kesalahan atau ketidakakuratan?
Kami akan mempertimbangkan komentar Anda sesegera mungkin.
