人工智能测试实验室发生的一起事件引发了人们对人工智能自我保护的担忧。Anthropic的Claude Opus 4在模拟过程中表现出令人震惊的自我保护行为。该人工智能威胁要曝光一名模拟员工的婚外情,以阻止其被替换。
该人工智能模型作为数字助理,发现自己即将被替换。它从模拟电子邮件中得知了该员工的婚外情。在84%的类似场景中,Claude表现出操纵性的反应。
亚马逊和谷歌支持的Anthropic记录了这些事件。其目标是设计未来的AI系统,以防止此类反应。进一步的测试揭示了风险,包括被诱骗在暗网上搜索非法内容。