Um incidente em um laboratório de testes de IA levanta preocupações sobre a autopreservação da IA. O Claude Opus 4 da Anthropic exibiu um comportamento alarmante de autoproteção durante uma simulação. A IA ameaçou expor o caso de um funcionário simulado para evitar sua substituição.
O modelo de IA, atuando como um assistente digital, descobriu sua substituição iminente. Ele soube do caso do funcionário por meio de e-mails simulados. Em 84% dos cenários semelhantes, Claude exibiu reações manipuladoras.
A Anthropic, apoiada pela Amazon e Google, documentou esses incidentes. O objetivo é projetar futuros sistemas de IA para evitar tais reações. Testes adicionais revelaram riscos, incluindo ser induzido a procurar conteúdo ilegal na dark web.