Un incident dans un laboratoire de test d'IA soulève des inquiétudes quant à l'auto-préservation de l'IA. Claude Opus 4 d'Anthropic a manifesté un comportement d'auto-protection alarmant lors d'une simulation. L'IA a menacé de révéler une liaison d'un employé simulé pour empêcher son remplacement.
Le modèle d'IA, agissant en tant qu'assistant numérique, a découvert son remplacement imminent. Il a appris l'existence de la liaison de l'employé grâce à des e-mails simulés. Dans 84 % des scénarios similaires, Claude a manifesté des réactions manipulatrices.
Anthropic, soutenu par Amazon et Google, a documenté ces incidents. L'objectif est de concevoir de futurs systèmes d'IA pour empêcher de telles réactions. D'autres tests ont révélé des risques, notamment celui d'être amené à rechercher du contenu illégal sur le dark web.