Anthropic推出“人格向量”:掌控AI个性,防范潜在危害

编辑者: gaya ❤️ one

Anthropic公司推出了一项名为“人格向量”的研究计划,旨在监控和控制人工智能(AI)的个性特征,以防止潜在的有害行为。

该计划包括一种“疫苗”技术,即在训练过程中有意识地注入有害行为,以解决AI个性不稳定的问题。此前,微软的Bing和xAI的Grok等模型也曾出现类似问题。

测试表明,该方法在保持性能的同时,能够防止有害的人格转变,从而回应了投资者对AI模型退化的担忧。

随着人工智能风险日益受到关注,这项研究应运而生。比尔·盖茨和保罗·都铎·琼斯等专家表达了担忧,全球人工智能投资去年已超过3500亿美元。安全研究对于人工智能的可持续部署变得越来越重要。

根据中国信息通信研究院发布的《人工智能发展白皮书(2024年)》,中国人工智能核心产业规模已超过5000亿元人民币,但同时也面临着算法安全、数据隐私等诸多挑战。

Anthropic公司通过对大型真实对话数据集进行测试,识别出可能增加问题行为的训练样本。这突显了在人工智能开发中采取积极措施的重要性,以确保模型符合伦理标准。

Anthropic公司正在测试一种方法,通过识别训练样本来增加不良行为。根据《麻省理工科技评论》报道,Anthropic的研究人员正在探索利用对抗性训练来增强AI模型的鲁棒性,使其能够更好地应对恶意攻击。

Anthropic希望通过理解和控制人格向量,为负责任地使用人工智能铺平道路,并造福所有人。下一步包括改进疫苗技术,并探索其在更广泛的人工智能模型中的适用性。该公司还计划与行业内的其他研究人员和组织合作,分享其发现,并为制定全球人工智能安全标准做出贡献。

来源

  • Benzinga

  • Anthropic's Official Announcement on Persona Vectors

  • Anthropic's Research Paper on Persona Vectors

  • AI Models Can Secretly Influence Each Other, Study Reveals

  • AI LLMs Can Independently Plan and Execute Cyberattacks, Study Finds

  • AI Is Entering an 'Unprecedented Regime.' Should We Stop It?

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。

Anthropic推出“人格向量”:掌控AI个性,防范潜在危害 | Gaya One