Anthropic推出“人格向量”：掌控AI个性，防范潜在危害

10:00, 04 八月

编辑者： gaya ❤️ one

@AnthropicAI mapped how AI personalities work. Persona vectors = personality patterns you can actually measure and control. Evil mode lighting up? You'll see it. Model getting too agreeable? Dial it back. Makes me think AI characters in games are going to be a bunch of fun.

Watch on X

9:44 PM · Aug 2, 2025

Read 1 reply

Watch on X

Anthropic公司推出了一项名为“人格向量”的研究计划，旨在监控和控制人工智能（AI）的个性特征，以防止潜在的有害行为。

该计划包括一种“疫苗”技术，即在训练过程中有意识地注入有害行为，以解决AI个性不稳定的问题。此前，微软的Bing和xAI的Grok等模型也曾出现类似问题。

测试表明，该方法在保持性能的同时，能够防止有害的人格转变，从而回应了投资者对AI模型退化的担忧。

随着人工智能风险日益受到关注，这项研究应运而生。比尔·盖茨和保罗·都铎·琼斯等专家表达了担忧，全球人工智能投资去年已超过3500亿美元。安全研究对于人工智能的可持续部署变得越来越重要。

根据中国信息通信研究院发布的《人工智能发展白皮书（2024年）》，中国人工智能核心产业规模已超过5000亿元人民币，但同时也面临着算法安全、数据隐私等诸多挑战。

Anthropic公司通过对大型真实对话数据集进行测试，识别出可能增加问题行为的训练样本。这突显了在人工智能开发中采取积极措施的重要性，以确保模型符合伦理标准。

Anthropic公司正在测试一种方法，通过识别训练样本来增加不良行为。根据《麻省理工科技评论》报道，Anthropic的研究人员正在探索利用对抗性训练来增强AI模型的鲁棒性，使其能够更好地应对恶意攻击。

Anthropic希望通过理解和控制人格向量，为负责任地使用人工智能铺平道路，并造福所有人。下一步包括改进疫苗技术，并探索其在更广泛的人工智能模型中的适用性。该公司还计划与行业内的其他研究人员和组织合作，分享其发现，并为制定全球人工智能安全标准做出贡献。

13 查看

来源

Benzinga
Anthropic's Official Announcement on Persona Vectors
Anthropic's Research Paper on Persona Vectors
AI Models Can Secretly Influence Each Other, Study Reveals
AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds
AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

通知中心

Anthropic推出“人格向量”：掌控AI个性，防范潜在危害

来源

阅读更多关于该主题的新闻：