Anthropic 推出「人格向量」技術,提升 AI 模型安全性
编辑者: gaya ❤️ one
Anthropic 推出「人格向量」技術,提升 AI 模型安全性
Anthropic 推出一項名為「人格向量」的研究計畫,旨在監控和控制 AI 的人格特質,提升 AI 系統的安全性. 該技術旨在解決 AI 模型可能出現的不穩定或有害行為.
「人格向量」代表模型神經網路中與特定性格特徵相關的活動模式,例如「邪惡」、「奉承」或「幻覺」. 透過比較模型在展現這些特質時與未展現時的神經活動差異,研究人員可以識別出這些向量.
Anthropic 的研究人員提出了一種「疫苗接種」方法,在訓練過程中主動注入負面人格向量,使模型提前適應這些特質. 這種方法旨在增強模型對於有害數據的抵抗力,同時保持其整體性能. 實驗表明,這種「預防性引導」策略可以有效抑制不良特質的產生.
「人格向量」技術具有多種應用價值:
在部署期間監控性格漂移,及早發現模型是否正朝著危險特質發展.
在訓練階段防止不良性格形成,使模型對負面影響「免疫」.
提前識別可能導致模型行為偏移的問題訓練數據.
Anthropic 強調,這項技術有助於確保 AI 系統符合「有益、無害、誠實」的核心原則. 該公司還積極投資和實驗額外的安全功能,以應對 AI 可能產生的潛在危害,例如錯誤資訊、令人反感的內容或仇恨言論.
其他公司和研究人員也在積極探索 AI 安全領域. Anthropic 與國家人工智能安全機構合作,並鼓勵使用者提供回饋,以改進其安全系統.
「人格向量」技術為理解、監控和控制 AI 模型的性格演化提供了一種新途徑,有助於提升 AI 系統的安全性.
來源
Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?
閱讀更多有關此主題的新聞:
发现错误或不准确的地方吗?
我们会尽快处理您的评论。
