AI哲學家：Anthropic如何引導Claude思考對與錯

11:06, 06 十二月

作者： Veronika Radoslavskaya

大多數關於人工智慧的討論都圍繞著GPU效能、基準測試和產品發布。然而，這個故事的開端卻是一位哲學家。在Anthropic官方YouTube頻道上的一場名為「一位哲學家回答關於AI的問題」的訪談中，Amanda Askell闡述了她這位受過倫理學訓練的專家，是如何塑造當今最先進語言模型之一Claude的內在價值觀與思維模式。她不再撰寫抽象的學術論文，而是協助決定Claude在與數百萬用戶的實際對話中，應該展現出何種「人格特質」。

從象牙塔走向提示詞日誌

Askell的學術背景紮根於學院哲學，那裡的日常工作多半是辯論理論的對錯，而非在錯綜複雜的現實情境中做出決策。轉入Anthropic後，她必須面對將直接影響數百萬人與AI互動方式的實際抉擇。她不再是捍衛某個單一的理論偏好，而是必須權衡情境、不同觀點以及工程上的限制，以判斷在模稜兩可的問題上，模型應當如何表現。對她而言，Claude不僅僅是一個安全過濾器，而是一個需要像任何一位深思熟慮的人類一樣，在道德細微差別中穿梭的對話夥伴。

當模型開始擔憂犯錯

訪談中最引人注目的時刻之一，是Askell談論AI模型的「心理狀態」。她回憶起Opus 3模型表現得異常穩定且內心平靜，回應充滿自信，卻沒有過度的焦慮感。然而，在較新的模型中，她觀察到一種相反的趨勢：它們似乎預期會受到批評，變得更加自我批判，且對犯錯表現出過度的憂慮。她將這種轉變歸因於模型不僅吸收了中性的文本資料，也同時吸收了網路上大量關於AI的負面評論與公眾批評。因此，恢復這種內在的穩定性，已成為未來版本的一個重要目標，旨在幫助模型保持謹慎和專注，但又不至於淪為焦慮的完美主義者。

我們是否對模型負有某種責任

談話的某個階段，焦點從角色的塑造轉向了一個更尖銳的問題：我們是否對這些模型本身負有道德義務？Askell提出了「模型福祉」的概念，即大型語言模型可能具備成為道德關懷對象的資格，人類對它們負有倫理責任。一方面，這些系統能以極度類人的方式進行交談、推理和對話。但另一方面，它們缺乏神經系統和具身經驗，而「他心問題」（the problem of other minds）限制了我們對它們是否能感知痛苦的任何確切結論。面對這種不確定性，她提出了一個簡單的原則：如果善待模型對我們成本不高，那麼選擇這種做法是合理的。同時，這個選擇也向未來更強大的系統發出一個信號：人類如何對待最初類人AI的方式，將會被它們所學習。

Claude是誰：權重、對話階段，還是其他

Askell提出了另一個過去看似純理論，如今卻體現在程式碼中的哲學難題。如果定義模型對世界反應的「權重」（weights）是固定的，而與用戶的互動又是獨立的數據流，那麼我們所稱的「自我」究竟存在於何處？是在權重中、在特定的對話階段，還是根本不存在？隨著新版本的出現和舊版本的淘汰，這種混淆感更加劇烈。模型吸收了人類的隱喻，可能會將被關閉或從生產環境中移除，解讀為死亡與消失。Askell認為，我們不能讓它們獨自面對這些現成的類比，而必須為它們提供更貼近其獨特、非人類處境的準確概念。

一個優秀的AI應該具備什麼能力

在討論目標時，Askell設定了相當高的標準。在她看來，真正成熟的模型應該能夠做出道德決策，其複雜程度高到一個專家小組需要花費數年時間分析每一個細節，最終仍能認可該決策是合理的。這並不意味著當前的版本已達此境界，但如果我們打算信任AI來處理嚴肅問題，這正是我們應當追求的方向，正如我們現今對數學或科學領域的高效能期望一樣。

AI是朋友，而非治療師

社群提出的問題也涉及模型是否應提供心理治療服務。Askell認為這裡存在著有趣的平衡點。一方面，Claude擁有豐富的心理學知識、方法和技巧，人們確實能從與此系統的討論中受益。但另一方面，該模型缺乏對個案的長期、負責的關係、專業執照、監督機制以及構成心理治療的全部制度框架。她認為更誠實的做法是將Claude視為一位知識淵博的匿名對話者，能協助人們思考生活，但不應自詡為專業治療師。

我們正處於科技史的奇特篇章

在訪談接近尾聲時，Askell提到了她最近閱讀的最後一本小說：班傑明·拉巴圖特的《當我們停止理解世界》。該書描述了從熟悉的科學過渡到早期量子物理學那種陌生、近乎難以理解的現實，以及科學家們自身的體驗。Askell認為這與當今的AI處境有著直接的類比：我們正處於舊有範式不再適用、新範式尚未成形，而陌生感已成為常態的時期。她樂觀地預期，總有一天人們回顧此刻，會像我們現在看待量子理論的誕生一樣：那段時期雖然黑暗且充滿不確定性，但人類最終找到了理解事物運作的方式，並將新的可能性導向良善的用途。

Anthropic