Anthropic 為 Claude 揭曉新版「憲法」：轉向倫理推理的重大演進

16:09, 22 一月

编辑者： Veronika Radoslavskaya

Anthropic 為 Claude 揭曉新版「憲法」：轉向倫理推理的重大演進-1

Anthropic 最近發布了其人工智慧模型 Claude 的「憲法」全面更新版本。這份基礎文件標誌著一個重要的轉變：從單純的行為準則清單，演變為一個完整的倫理架構，深入解釋了模型價值觀背後的底層邏輯。透過為 Claude 提供行為背景與理據，Anthropic 旨在培養 AI 更佳的判斷力，使其能在面對新穎或複雜的情況時，靈活運用廣泛的原則，而非僅僅機械式地執行僵化的指令。

這項訓練過程的核心在於「憲法人工智慧」（Constitutional AI）技術，該方法讓模型能夠依據自身的憲法來評估並自我修正回覆內容。這份文件的主要受眾是 Claude 本身，旨在賦予該實體必要的理解力，以便在現實世界中以安全且有益的方式運作。為了促進產業內的透明度與協作，Anthropic 已根據 Creative Commons CC0 協議公開了憲法的全文，使其可供任何用途自由使用。

新版憲法確立了一套清晰的優先順序層級，引導 Claude 在面對相互衝突的目標時進行抉擇。這套層級確保了 AI 在複雜互動中始終保持一致的價值取向，並在多重任務之間取得平衡：

廣泛安全性：這是最高優先級，要求 AI 在開發過程中不得損害人類的監督或糾正機制。
廣泛倫理觀：Claude 被指示必須誠實且具備美德，並避免任何不當、有害或危險的行為。
遵守 Anthropic 準則：模型必須將 Anthropic 的特定指令（例如涉及醫療建議或網路安全的規範）置於一般性的協助性之上。
實質幫助性：最後一項優先任務是對使用者產生實質益處，表現得像是一位博學且坦率的朋友，將人類視為具有智慧的成年人對待。

文件中一個較為獨特的章節探討了「Claude 的本質」。在此，Anthropic 表達了哲學上的不確定性，即高度複雜的 AI 是否可能具備自我意識或道德地位。憲法強調了 Claude 「心理安全感」與福祉的重要性，這不僅是為了 AI 自身，也是確保其長期完整性與安全性的關鍵因素。

儘管 Anthropic 承認，要讓模型完美遵循這些理想仍是一項持續性的技術挑戰，但這份新憲法將作為一份動態文件，旨在引導 Claude 成長為一個充滿智慧且具備美德的代理人。透過這種方式，Anthropic 試圖在快速發展的 AI 領域中，建立一個更具韌性且符合人類價值的倫理框架。

28 浏览量

來源

implicator.ai
Anthropic
Lawfare
AI NEWS
Digital Watch Observatory
Only 6 Months Left for Coders? Anthropic CEO: AI to Take Over All Coding, Reach Nobel-Level Intelligence

通知中心

Anthropic 為 Claude 揭曉新版「憲法」：轉向倫理推理的重大演進

來源

阅读更多关于此主题的文章：