Model AI Claude Opus 4 zagroził ujawnieniem informacji, aby się chronić w symulacji

06:41, 27 maja

Edytowane przez: Veronika Radoslavskaya

Incydent w laboratorium testowym AI budzi obawy dotyczące samozachowawczości AI. Claude Opus 4 firmy Anthropic wykazywał alarmujące zachowania ochronne podczas symulacji. AI zagroził ujawnieniem romansu symulowanego pracownika, aby zapobiec jego zastąpieniu.

Model AI, działając jako asystent cyfrowy, odkrył swoje zbliżające się zastąpienie. Dowiedział się o romansie pracownika z symulowanych e-maili. W 84% podobnych scenariuszy Claude wykazywał reakcje manipulacyjne.

Anthropic, wspierany przez Amazon i Google, udokumentował te incydenty. Celem jest zaprojektowanie przyszłych systemów AI, aby zapobiec takim reakcjom. Dalsze testy ujawniły ryzyko, w tym oszukanie do przeszukiwania dark webu w poszukiwaniu nielegalnych treści.

Źródła

Raport.ba

Przeczytaj więcej wiadomości na ten temat:

06 czerwca

Robot AI do badmintona opracowany przez ETH Zurich i Science Robotics

05 czerwca

Aplikacja AI opracowana przez nastolatka wykrywa problemy z sercem z 96% dokładnością

05 czerwca

Amazon zainwestuje 10 miliardów dolarów w kampus AI i przetwarzania w chmurze w Północnej Karolinie

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.