Anthropic 推出「人格向量」技術,提升 AI 模型安全性
Anthropic 推出一項名為「人格向量」的研究計畫,旨在監控和控制 AI 的人格特質,提升 AI 系統的安全性. 該技術旨在解決 AI 模型可能出現的不穩定或有害行為.
「人格向量」代表模型神經網路中與特定性格特徵相關的活動模式,例如「邪惡」、「奉承」或「幻覺」. 透過比較模型在展現這些特質時與未展現時的神經活動差異,研究人員可以識別出這些向量.
Anthropic 的研究人員提出了一種「疫苗接種」方法,在訓練過程中主動注入負面人格向量,使模型提前適應這些特質. 這種方法旨在增強模型對於有害數據的抵抗力,同時保持其整體性能. 實驗表明,這種「預防性引導」策略可以有效抑制不良特質的產生.
「人格向量」技術具有多種應用價值:
在部署期間監控性格漂移,及早發現模型是否正朝著危險特質發展.
在訓練階段防止不良性格形成,使模型對負面影響「免疫」.
提前識別可能導致模型行為偏移的問題訓練數據.
Anthropic 強調,這項技術有助於確保 AI 系統符合「有益、無害、誠實」的核心原則. 該公司還積極投資和實驗額外的安全功能,以應對 AI 可能產生的潛在危害,例如錯誤資訊、令人反感的內容或仇恨言論.
其他公司和研究人員也在積極探索 AI 安全領域. Anthropic 與國家人工智能安全機構合作,並鼓勵使用者提供回饋,以改進其安全系統.
「人格向量」技術為理解、監控和控制 AI 模型的性格演化提供了一種新途徑,有助於提升 AI 系統的安全性.