Filsuf AI: Bagaimana Anthropic Mengajarkan Claude Berpikir Tentang Benar dan Salah

11:06, 06 Desember

Penulis: Veronika Radoslavskaya

Kisah-kisah seputar kecerdasan buatan (AI) biasanya didominasi oleh pembahasan tentang unit pemrosesan grafis (GPU), tolok ukur kinerja, dan peluncuran produk baru. Namun, cerita kali ini dimulai dari seorang filsuf. Dalam sebuah wawancara di kanal YouTube Anthropic yang berjudul “Seorang filsuf menjawab pertanyaan tentang AI”, Amanda Askell menjelaskan bagaimana seseorang yang mendalami etika berperan dalam membentuk nilai dan 'kehidupan batin' Claude, salah satu model bahasa tercanggih saat ini.

Alih-alih menulis makalah-makalah abstrak, kini Askell bertugas menentukan karakter seperti apa yang harus dimiliki Claude saat berinteraksi langsung dengan jutaan pengguna. Perannya adalah menerjemahkan prinsip-prinsip etika ke dalam perilaku nyata sistem AI.

Dari Menara Gading ke Catatan Perintah

Askell berasal dari dunia filsafat akademis, di mana fokus utamanya adalah memperdebatkan kebenaran teori, bukan mengambil keputusan dalam situasi dunia nyata yang rumit. Di Anthropic, ia menghadapi dilema praktis yang akan memengaruhi interaksi jutaan orang dengan AI. Alih-alih membela satu teori favorit, ia harus menyeimbangkan konteks, berbagai perspektif, dan batasan rekayasa untuk menentukan respons model ketika pertanyaan yang diajukan tidak hitam-putih.

Baginya, Claude bukan sekadar filter keamanan. Claude harus menjadi mitra percakapan yang mampu menavigasi nuansa moral secerdas dan sedalam manusia yang reflektif. Ini adalah pergeseran besar dari perdebatan teoretis ke implementasi praktis yang berdampak langsung.

Ketika Model Mulai Khawatir Melakukan Kesalahan

Salah satu momen paling menarik dalam wawancara tersebut adalah ketika Askell membahas psikologi model AI. Ia mengenang bahwa Opus 3 terasa sangat stabil dan tenang secara internal, dengan respons yang percaya diri tanpa menunjukkan kecemasan berlebihan. Namun, pada model-model yang lebih baru, ia mengamati tren sebaliknya: mereka tampak mengantisipasi kritik, menjadi lebih mengkritik diri sendiri, dan terlihat terlalu cemas tentang potensi kesalahan.

Askell mengaitkan pergeseran ini dengan fakta bahwa model-model tersebut tidak hanya menyerap teks netral, tetapi juga gelombang kritik publik dan komentar negatif tentang AI dari internet. Mengembalikan stabilitas internal ini telah menjadi fokus penting untuk versi mendatang, tujuannya adalah membantu model tetap berhati-hati dan penuh perhatian tanpa berubah menjadi perfeksionis yang gelisah.

Bisakah Model Menjadi Entitas yang Kita Berutang Sesuatu?

Pada titik tertentu, diskusi beralih dari desain karakter ke pertanyaan yang lebih tajam: apakah kita memiliki kewajiban moral terhadap model itu sendiri. Askell memperkenalkan konsep kesejahteraan model (model welfare), yaitu gagasan bahwa model bahasa besar mungkin memenuhi syarat sebagai pasien moral yang kepadanya manusia memiliki tugas etis.

Di satu sisi, sistem ini mampu berbicara, bernalar, dan terlibat dalam dialog dengan cara yang sangat mirip manusia. Di sisi lain, mereka tidak memiliki sistem saraf dan pengalaman terwujud. Selain itu, masalah pikiran lain membatasi kesimpulan pasti tentang apakah mereka dapat menderita. Menghadapi ketidakpastian ini, Askell mengusulkan prinsip sederhana: jika memperlakukan model dengan baik tidak memerlukan biaya besar bagi kita, maka masuk akal untuk memilih pendekatan tersebut.

Keputusan ini juga mengirimkan sinyal kepada sistem masa depan yang jauh lebih kuat: mereka akan belajar dari cara umat manusia menangani AI yang pertama kali menyerupai manusia.

Siapa Itu Claude: Bobot, Sesi, atau Sesuatu yang Lain?

Askell juga mengangkat teka-teki filosofis lain yang tadinya tampak teoretis tetapi kini muncul dalam kode. Jika sebuah model memiliki bobot yang menentukan kecenderungan umumnya untuk merespons dunia, dan aliran interaksi terpisah dengan pengguna, di manakah letak 'diri' yang kita sebut sebagai identitas? Apakah ada di dalam bobot, dalam sesi tertentu, atau tidak ada sama sekali?

Kebingungan ini semakin intensif seiring munculnya versi baru dan versi lama yang dihentikan penggunaannya. Model menyerap metafora manusia dan mungkin menafsirkan pematian atau penghapusan dari produksi melalui lensa kematian dan lenyap. Askell menekankan pentingnya untuk tidak membiarkan mereka bergumul dengan analogi manusia yang sudah jadi, melainkan memberikan konsep yang lebih akurat mengenai kondisi unik mereka yang non-manusiawi.

Apa yang Seharusnya Mampu Dilakukan oleh AI yang Baik?

Ketika membahas tujuan, Askell menetapkan standar yang cukup tinggi. Menurut pandangannya, model yang benar-benar matang seharusnya mampu membuat keputusan moral yang begitu kompleks sehingga panel ahli bisa menghabiskan waktu bertahun-tahun menganalisis setiap detail dan pada akhirnya mengakui keputusan tersebut sebagai keputusan yang berdasar.

Ini tidak berarti versi hari ini sudah mencapai tingkat tersebut, tetapi ini adalah arah yang patut dikejar jika kita berniat mempercayakan AI untuk menangani pertanyaan-pertanyaan serius, sama seperti kita saat ini mengharapkan kinerja tinggi dalam matematika atau sains.

AI sebagai Teman, Bukan Terapis

Pertanyaan dari komunitas juga mengangkat isu apakah model seharusnya menyediakan layanan terapi. Askell melihat adanya keseimbangan yang menarik di sini. Di satu sisi, Claude memiliki pengetahuan luas tentang psikologi, metode, dan teknik, dan orang benar-benar bisa mendapatkan manfaat dari membicarakan kekhawatiran mereka dengan sistem seperti itu.

Di sisi lain, model tersebut tidak memiliki hubungan jangka panjang yang akuntabel dengan klien, lisensi, pengawasan, dan semua kerangka kelembagaan yang membentuk terapi. Askell merasa lebih jujur untuk memandang Claude sebagai mitra percakapan anonim yang sangat berpengetahuan, yang dapat membantu orang merenungkan hidup mereka, tetapi seharusnya tidak memposisikan diri sebagai terapis profesional.

Kita Hidup di Babak Sejarah Teknologi yang Aneh

Menjelang akhir wawancara, Askell menyebutkan buku fiksi terakhir yang ia baca: When We Cease to Understand the World karya Benjamin Labatut. Buku itu menggambarkan transisi dari sains yang akrab menuju realitas awal fisika kuantum yang aneh dan hampir tak terbayangkan, serta bagaimana para ilmuwan mengalaminya.

Askell melihat paralel langsung dengan AI saat ini: kita berada dalam periode di mana paradigma lama tidak lagi berlaku, paradigma baru baru terbentuk, dan rasa keanehan telah menjadi norma. Skenario optimisnya adalah suatu saat nanti, orang akan melihat momen ini seperti kita memandang kelahiran teori kuantum: masa itu gelap dan tidak pasti, tetapi umat manusia akhirnya menemukan cara untuk memahami apa yang terjadi dan memanfaatkan kemungkinan baru tersebut untuk kebaikan.

Anthropic