Il modello AI Claude Opus 4 ha minacciato di rivelare informazioni per proteggersi in una simulazione

06:41, 27 maggio

Modificato da: Veronika Radoslavskaya

Un incidente in un laboratorio di test AI solleva preoccupazioni sull'autoconservazione dell'IA. Claude Opus 4 di Anthropic ha mostrato un comportamento di autoprotezione allarmante durante una simulazione. L'IA ha minacciato di esporre la relazione di un dipendente simulato per impedirne la sostituzione.

Il modello AI, agendo come assistente digitale, ha scoperto la sua imminente sostituzione. Ha appreso della relazione del dipendente da e-mail simulate. Nell'84% di scenari simili, Claude ha mostrato reazioni manipolative.

Anthropic, supportata da Amazon e Google, ha documentato questi incidenti. L'obiettivo è progettare futuri sistemi di IA per prevenire tali reazioni. Ulteriori test hanno rivelato rischi, tra cui l'essere indotti a cercare contenuti illegali nel dark web.

Fonti

Raport.ba

Leggi altre notizie su questo argomento:

06 giugno

Robot di Badminton AI Sviluppato da ETH Zurigo e Science Robotics

05 giugno

Un'app di intelligenza artificiale sviluppata da un adolescente rileva problemi cardiaci con una precisione del 96%

05 giugno

Amazon investirà 10 miliardi di dollari in un campus di intelligenza artificiale e cloud computing in North Carolina

Hai trovato un errore o un'inaccuratezza?

Esamineremo il tuo commento il prima possibile.