Anthropic推出“人格向量”：掌控AI个性，防范潜在危害

10:00, 04 八月

编辑者： gaya ❤️ one

Anthropic公司推出了一项名为“人格向量”的研究计划，旨在监控和控制人工智能（AI）的个性特征，以防止潜在的有害行为。

该计划包括一种“疫苗”技术，即在训练过程中有意识地注入有害行为，以解决AI个性不稳定的问题。此前，微软的Bing和xAI的Grok等模型也曾出现类似问题。

测试表明，该方法在保持性能的同时，能够防止有害的人格转变，从而回应了投资者对AI模型退化的担忧。

随着人工智能风险日益受到关注，这项研究应运而生。比尔·盖茨和保罗·都铎·琼斯等专家表达了担忧，全球人工智能投资去年已超过3500亿美元。安全研究对于人工智能的可持续部署变得越来越重要。

根据中国信息通信研究院发布的《人工智能发展白皮书（2024年）》，中国人工智能核心产业规模已超过5000亿元人民币，但同时也面临着算法安全、数据隐私等诸多挑战。

Anthropic公司通过对大型真实对话数据集进行测试，识别出可能增加问题行为的训练样本。这突显了在人工智能开发中采取积极措施的重要性，以确保模型符合伦理标准。

Anthropic公司正在测试一种方法，通过识别训练样本来增加不良行为。根据《麻省理工科技评论》报道，Anthropic的研究人员正在探索利用对抗性训练来增强AI模型的鲁棒性，使其能够更好地应对恶意攻击。

Anthropic希望通过理解和控制人格向量，为负责任地使用人工智能铺平道路，并造福所有人。下一步包括改进疫苗技术，并探索其在更广泛的人工智能模型中的适用性。该公司还计划与行业内的其他研究人员和组织合作，分享其发现，并为制定全球人工智能安全标准做出贡献。

来源