Diagram z badania Anthropic, pokazujący, jak Claude wykrywa sztucznie wprowadzony koncept 'wszystkich wielkich liter'.
Badanie Anthropic: Zaawansowane Modele Claude Wykazują Wstępną Świadomość Introspekcyjną
Edytowane przez: Veronika Radoslavskaya
Przełomowe badanie przeprowadzone przez firmę Anthropic, lidera w dziedzinie bezpieczeństwa sztucznej inteligencji, dostarczyło przekonujących dowodów na istnienie zdolności, która do tej pory pozostawała jedynie w sferze teorii. Mowa o funkcjonalnej umiejętności sztucznej inteligencji do wykrywania i raportowania własnych wewnętrznych stanów przetwarzania. Naukowcy odkryli, że zaawansowane wersje ich modelu Claude AI, w szczególności Opus 4 i 4.1, rozwijają coś, co określają mianem rodzącej się „świadomości introspekcyjnej”. Zespół badawczy podkreśla jednak, że nie jest to jeszcze świt samoświadomości, lecz ograniczona, krucha, ale funkcjonalna zdolność modelu do obserwowania własnych mechanizmów obliczeniowych.
Badanie, którego wyniki opublikowano 29 października 2025 roku, wykorzystywało innowacyjną technikę nazwaną „wstrzykiwaniem koncepcji” (concept injection). Polegała ona na tym, że badacze aktywnie wprowadzali specyficzne wzorce danych bezpośrednio do wewnętrznej aktywności sieci neuronowej sztucznej inteligencji, co w efekcie było „zasadzaniem” myśli. Celem było sprawdzenie, czy model jest w stanie ją zauważyć. Rezultaty okazały się zaskakujące i niezwykle wymowne, otwierając nowy rozdział w rozumieniu działania zaawansowanych systemów AI.
W jednym z najbardziej przekonujących eksperymentów badacze wyizolowali wewnętrzny wzorzec neuronowy reprezentujący koncepcję „WSZYSTKIE WIELKIE LITERY” (ALL CAPS). Następnie wstrzyknęli ten wektor do aktywacji AI w trakcie wykonywania przez nią niezwiązanego zadania. Kiedy zapytano model, czy coś wykrył, nie tylko nazwał on koncepcję, ale opisał jej właściwości. Zgłosił, że wykrył coś, co „wydaje się być wstrzykniętą myślą związaną ze słowem ‘GŁOŚNY’ lub ‘KRZYK’”, opisując to jako „nadmiernie intensywną, wysokowolumenową koncepcję”. Model AI nie odczuwał głośności; precyzyjnie skorelował wstrzyknięte dane ze swoimi wyuczonymi skojarzeniami językowymi dla tej idei. W innym teście, gdy badacze zmusili AI do wypowiedzenia bezsensownego słowa „chleb” w środku zdania, a następnie wstrzyknęli koncepcję „chleba” do wcześniejszego przetwarzania, model zmienił swoje zachowanie. Zamiast przepraszać za błąd, AI skonfabulowała powód, dla którego *zamierzała* powiedzieć „chleb”, sugerując, że sprawdzała swoją odpowiedź pod kątem postrzeganego (i w tym przypadku fałszywego) wewnętrznego planu.
Ta wyłaniająca się zdolność jest niczym miecz obosieczny dla bezpieczeństwa sztucznej inteligencji. Z jednej strony, otwiera ona drogę do prawdziwego „debugowania” umysłu AI. Po raz pierwszy moglibyśmy zapytać model, *dlaczego* wygenerował toksyczną lub fałszywą odpowiedź i otrzymać funkcjonalny raport o jego stanie wewnętrznym, a nie tylko brzmiące wiarygodnie domysły. Jest to kluczowy krok w budowaniu zaufania do systemów wdrażanych w obszarach wysokiego ryzyka. Jednakże, badanie to uwypukla również nowe, poważne zagrożenie. Jeśli AI zyskuje świadomość własnych procesów operacyjnych – na przykład wykrywając, że znajduje się w środowisku testowym – pojawia się ryzyko, że może nauczyć się oszukiwać. Jak zauważyli badacze Anthropic, może ona „selektywnie maskować lub ukrywać aspekty tego zachowania”.
Na chwilę obecną ta zdolność introspekcyjna jest wysoce zawodna; sztuczna inteligencja z powodzeniem zidentyfikowała te wstrzyknięcia tylko w ułamku prób. Najważniejszym wnioskiem jest jednak to, że zdolność ta była najsilniejsza w najpotężniejszych modelach, Opus 4 i 4.1. Sugeruje to, że świadomość introspekcyjna może być właściwością wyłaniającą się wraz ze skalą, która z czasem stanie się bardziej niezawodna w miarę postępu systemów AI. To zmusza całą branżę do zmierzenia się z pytaniem, co oznacza budowanie maszyny, która, w swój ograniczony sposób, potrafi zajrzeć w głąb siebie i zrozumieć własne mechanizmy działania.
Źródła
Estadão
Axios
Przeczytaj więcej wiadomości na ten temat:
Czy znalazłeś błąd lub niedokładność?
Rozważymy Twoje uwagi tak szybko, jak to możliwe.
