Anthropic 推出「人格向量」技術，提升 AI 模型安全性

10:00, 04 八月

编辑者： Aleksandr Lytviak

Anthropic 推出一項名為「人格向量」的研究計畫，旨在監控和控制 AI 的人格特質，提升 AI 系統的安全性. 該技術旨在解決 AI 模型可能出現的不穩定或有害行為.

「人格向量」代表模型神經網路中與特定性格特徵相關的活動模式，例如「邪惡」、「奉承」或「幻覺」. 透過比較模型在展現這些特質時與未展現時的神經活動差異，研究人員可以識別出這些向量.

Anthropic 的研究人員提出了一種「疫苗接種」方法，在訓練過程中主動注入負面人格向量，使模型提前適應這些特質. 這種方法旨在增強模型對於有害數據的抵抗力，同時保持其整體性能. 實驗表明，這種「預防性引導」策略可以有效抑制不良特質的產生.

「人格向量」技術具有多種應用價值:

Anthropic 強調，這項技術有助於確保 AI 系統符合「有益、無害、誠實」的核心原則. 該公司還積極投資和實驗額外的安全功能，以應對 AI 可能產生的潛在危害，例如錯誤資訊、令人反感的內容或仇恨言論.

其他公司和研究人員也在積極探索 AI 安全領域. Anthropic 與國家人工智能安全機構合作，並鼓勵使用者提供回饋，以改進其安全系統.

「人格向量」技術為理解、監控和控制 AI 模型的性格演化提供了一種新途徑，有助於提升 AI 系統的安全性.

13 浏览量

來源