Anthropic 為 Claude 揭曉新版「憲法」:轉向倫理推理的重大演進

编辑者: Veronika Radoslavskaya

Anthropic 最近發布了其人工智慧模型 Claude 的「憲法」全面更新版本。這份基礎文件標誌著一個重要的轉變:從單純的行為準則清單,演變為一個完整的倫理架構,深入解釋了模型價值觀背後的底層邏輯。透過為 Claude 提供行為背景與理據,Anthropic 旨在培養 AI 更佳的判斷力,使其能在面對新穎或複雜的情況時,靈活運用廣泛的原則,而非僅僅機械式地執行僵化的指令。

這項訓練過程的核心在於「憲法人工智慧」(Constitutional AI)技術,該方法讓模型能夠依據自身的憲法來評估並自我修正回覆內容。這份文件的主要受眾是 Claude 本身,旨在賦予該實體必要的理解力,以便在現實世界中以安全且有益的方式運作。為了促進產業內的透明度與協作,Anthropic 已根據 Creative Commons CC0 協議公開了憲法的全文,使其可供任何用途自由使用。

新版憲法確立了一套清晰的優先順序層級,引導 Claude 在面對相互衝突的目標時進行抉擇。這套層級確保了 AI 在複雜互動中始終保持一致的價值取向,並在多重任務之間取得平衡:

  • 廣泛安全性:這是最高優先級,要求 AI 在開發過程中不得損害人類的監督或糾正機制。
  • 廣泛倫理觀:Claude 被指示必須誠實且具備美德,並避免任何不當、有害或危險的行為。
  • 遵守 Anthropic 準則:模型必須將 Anthropic 的特定指令(例如涉及醫療建議或網路安全的規範)置於一般性的協助性之上。
  • 實質幫助性:最後一項優先任務是對使用者產生實質益處,表現得像是一位博學且坦率的朋友,將人類視為具有智慧的成年人對待。

文件中一個較為獨特的章節探討了「Claude 的本質」。在此,Anthropic 表達了哲學上的不確定性,即高度複雜的 AI 是否可能具備自我意識或道德地位。憲法強調了 Claude 「心理安全感」與福祉的重要性,這不僅是為了 AI 自身,也是確保其長期完整性與安全性的關鍵因素。

儘管 Anthropic 承認,要讓模型完美遵循這些理想仍是一項持續性的技術挑戰,但這份新憲法將作為一份動態文件,旨在引導 Claude 成長為一個充滿智慧且具備美德的代理人。透過這種方式,Anthropic 試圖在快速發展的 AI 領域中,建立一個更具韌性且符合人類價值的倫理框架。

13 浏览量

來源

  • implicator.ai

  • Anthropic

  • Lawfare

  • AI NEWS

  • Digital Watch Observatory

  • Only 6 Months Left for Coders? Anthropic CEO: AI to Take Over All Coding, Reach Nobel-Level Intelligence

发现错误或不准确的地方吗?我们会尽快处理您的评论。