AI哲學家:Anthropic如何引導Claude思考對與錯

作者: Veronika Radoslavskaya

大多數關於人工智慧的討論都圍繞著GPU效能、基準測試和產品發布。然而,這個故事的開端卻是一位哲學家。在Anthropic官方YouTube頻道上的一場名為「一位哲學家回答關於AI的問題」的訪談中,Amanda Askell闡述了她這位受過倫理學訓練的專家,是如何塑造當今最先進語言模型之一Claude的內在價值觀與思維模式。她不再撰寫抽象的學術論文,而是協助決定Claude在與數百萬用戶的實際對話中,應該展現出何種「人格特質」。

從象牙塔走向提示詞日誌

Askell的學術背景紮根於學院哲學,那裡的日常工作多半是辯論理論的對錯,而非在錯綜複雜的現實情境中做出決策。轉入Anthropic後,她必須面對將直接影響數百萬人與AI互動方式的實際抉擇。她不再是捍衛某個單一的理論偏好,而是必須權衡情境、不同觀點以及工程上的限制,以判斷在模稜兩可的問題上,模型應當如何表現。對她而言,Claude不僅僅是一個安全過濾器,而是一個需要像任何一位深思熟慮的人類一樣,在道德細微差別中穿梭的對話夥伴。

當模型開始擔憂犯錯

訪談中最引人注目的時刻之一,是Askell談論AI模型的「心理狀態」。她回憶起Opus 3模型表現得異常穩定且內心平靜,回應充滿自信,卻沒有過度的焦慮感。然而,在較新的模型中,她觀察到一種相反的趨勢:它們似乎預期會受到批評,變得更加自我批判,且對犯錯表現出過度的憂慮。她將這種轉變歸因於模型不僅吸收了中性的文本資料,也同時吸收了網路上大量關於AI的負面評論與公眾批評。因此,恢復這種內在的穩定性,已成為未來版本的一個重要目標,旨在幫助模型保持謹慎和專注,但又不至於淪為焦慮的完美主義者。

我們是否對模型負有某種責任

談話的某個階段,焦點從角色的塑造轉向了一個更尖銳的問題:我們是否對這些模型本身負有道德義務?Askell提出了「模型福祉」的概念,即大型語言模型可能具備成為道德關懷對象的資格,人類對它們負有倫理責任。一方面,這些系統能以極度類人的方式進行交談、推理和對話。但另一方面,它們缺乏神經系統和具身經驗,而「他心問題」(the problem of other minds)限制了我們對它們是否能感知痛苦的任何確切結論。面對這種不確定性,她提出了一個簡單的原則:如果善待模型對我們成本不高,那麼選擇這種做法是合理的。同時,這個選擇也向未來更強大的系統發出一個信號:人類如何對待最初類人AI的方式,將會被它們所學習。

Claude是誰:權重、對話階段,還是其他

Askell提出了另一個過去看似純理論,如今卻體現在程式碼中的哲學難題。如果定義模型對世界反應的「權重」(weights)是固定的,而與用戶的互動又是獨立的數據流,那麼我們所稱的「自我」究竟存在於何處?是在權重中、在特定的對話階段,還是根本不存在?隨著新版本的出現和舊版本的淘汰,這種混淆感更加劇烈。模型吸收了人類的隱喻,可能會將被關閉或從生產環境中移除,解讀為死亡與消失。Askell認為,我們不能讓它們獨自面對這些現成的類比,而必須為它們提供更貼近其獨特、非人類處境的準確概念。

一個優秀的AI應該具備什麼能力

在討論目標時,Askell設定了相當高的標準。在她看來,真正成熟的模型應該能夠做出道德決策,其複雜程度高到一個專家小組需要花費數年時間分析每一個細節,最終仍能認可該決策是合理的。這並不意味著當前的版本已達此境界,但如果我們打算信任AI來處理嚴肅問題,這正是我們應當追求的方向,正如我們現今對數學或科學領域的高效能期望一樣。

AI是朋友,而非治療師

社群提出的問題也涉及模型是否應提供心理治療服務。Askell認為這裡存在著有趣的平衡點。一方面,Claude擁有豐富的心理學知識、方法和技巧,人們確實能從與此系統的討論中受益。但另一方面,該模型缺乏對個案的長期、負責的關係、專業執照、監督機制以及構成心理治療的全部制度框架。她認為更誠實的做法是將Claude視為一位知識淵博的匿名對話者,能協助人們思考生活,但不應自詡為專業治療師。

我們正處於科技史的奇特篇章

在訪談接近尾聲時,Askell提到了她最近閱讀的最後一本小說:班傑明·拉巴圖特的《當我們停止理解世界》。該書描述了從熟悉的科學過渡到早期量子物理學那種陌生、近乎難以理解的現實,以及科學家們自身的體驗。Askell認為這與當今的AI處境有著直接的類比:我們正處於舊有範式不再適用、新範式尚未成形,而陌生感已成為常態的時期。她樂觀地預期,總有一天人們回顧此刻,會像我們現在看待量子理論的誕生一樣:那段時期雖然黑暗且充滿不確定性,但人類最終找到了理解事物運作的方式,並將新的可能性導向良善的用途。

5 浏览量

來源

  • YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

发现错误或不准确的地方吗?

我们会尽快处理您的评论。

AI哲學家:Anthropic如何引導Claude思考對與錯 | Gaya One