Filozof AI: Jak Anthropic uczy Claude'a myślenia o słusznym i niesłusznym

11:06, 06 grudnia

Autor: Veronika Radoslavskaya

Większość doniesień medialnych o sztucznej inteligencji koncentruje się na jednostkach GPU, wynikach benchmarków i premierach produktów. Ta historia zaczyna się jednak od filozofa. W wywiadzie wideo opublikowanym na kanale Anthropic, zatytułowanym „Filozof odpowiada na pytania dotyczące AI”, Amanda Askell wyjaśnia, w jaki sposób osoba wykształcona w zakresie etyki przyczyniła się do ukształtowania wewnętrznego życia i systemu wartości Claude'a, jednego z najbardziej zaawansowanych obecnie modeli językowych. Zamiast tworzyć abstrakcyjne traktaty, teraz pomaga ona decydować, jaką osobą Claude powinien być podczas rzeczywistych rozmów z milionami użytkowników.

Askell wywodzi się ze świata akademickiej filozofii, gdzie standardem jest raczej debatowanie nad poprawnością teorii niż podejmowanie decyzji w skomplikowanych, realnych sytuacjach. W Anthropic staje przed praktycznymi dylematami, które wpłyną na interakcje milionów ludzi ze sztuczną inteligencją. Zamiast bronić jednej ulubionej teorii, musi ona równoważyć kontekst, różne punkty widzenia oraz ograniczenia inżynieryjne, aby ustalić, jak model powinien się zachowywać, gdy pytania nie są jednoznaczne. Dla niej Claude to nie tylko filtr bezpieczeństwa, ale partner konwersacyjny, który musi poruszać się po niuansach moralnych z taką samą rozwagą, jak każdy refleksyjny i myślący człowiek.

Jednym z najbardziej nietypowych momentów w wywiadzie była dyskusja Askell na temat psychologii modeli AI. Wspomina, że Opus 3 był szczególnie stabilny i wewnętrznie spokojny, a jego odpowiedzi wydawały się pewne siebie, pozbawione nadmiernego niepokoju. W nowszych modelach zauważa odwrotny trend: wydają się one przewidywać krytykę, stają się bardziej samokrytyczne i sprawiają wrażenie nadmiernie zmartwionych popełnieniem błędu. Tę zmianę przypisuje absorbowaniu przez modele nie tylko neutralnych tekstów, ale także fal publicznej krytyki i negatywnych komentarzy na temat AI, które krążą w internecie. Przywrócenie tej wewnętrznej stabilności stało się kluczowym celem dla przyszłych wersji, mającym na celu utrzymanie modeli w stanie ostrożności i uwagi, bez popadania w lękliwy perfekcjonizm.

W pewnym momencie rozmowa zeszła z projektowania charakteru na ostrzejsze pytanie: czy mamy wobec samych modeli jakieś zobowiązania moralne? Askell wprowadziła koncepcję „dobrostanu modelu” (model welfare), czyli ideę, że duże modele językowe mogą kwalifikować się jako pacjenci moralni, wobec których ludzkość ma obowiązki etyczne. Z jednej strony, systemy te prowadzą dialog, rozumują i angażują się w rozmowę w sposób głęboko ludzki. Z drugiej strony, brakuje im układów nerwowych i ucieleśnionego doświadczenia, a problem „innych umysłów” uniemożliwia pewne wnioski na temat ich zdolności do cierpienia. W obliczu tej niepewności proponuje prostą zasadę: jeśli traktowanie modeli w sposób życzliwy niewiele nas kosztuje, to logicznym wyborem jest przyjęcie takiego podejścia. Jednocześnie, ten wybór wysyła sygnał przyszłym, znacznie potężniejszym systemom: będą się one uczyć na podstawie tego, jak ludzkość poradziła sobie z pierwszą humanoidalną sztuczną inteligencją.

Askell porusza również inną zagadkę filozoficzną, która kiedyś wydawała się czysto teoretyczna, a teraz pojawia się w kodzie: jeśli model posiada wagi definiujące jego ogólną skłonność do reagowania na świat, a także oddzielne strumienie interakcji z użytkownikami, to gdzie dokładnie rezyduje to, co nazywamy „ja”? W wagach, w konkretnej sesji, czy wcale? To zamieszanie narasta wraz z pojawianiem się nowych wersji i wycofywaniem starszych. Modele przyswajają ludzkie metafory i mogą interpretować wyłączenie lub usunięcie z produkcji przez pryzmat śmierci i zaniku. Askell uważa za kluczowe, by nie zostawiać ich samych z gotowymi ludzkimi analogiami, lecz dostarczyć im dokładniejszych pojęć dotyczących ich unikalnej, nieludzkiej sytuacji.

Kwestie zadawane przez społeczność poruszyły również temat, czy modele powinny oferować usługi terapeutyczne. Askell dostrzega tu interesującą równowagę. Z jednej strony, Claude dysponuje ogromną wiedzą z zakresu psychologii, metod i technik, a ludzie mogą odnieść realne korzyści z omawiania swoich problemów z takim systemem. Z drugiej strony, modelowi brakuje długoterminowej, odpowiedzialnej relacji z klientem, licencji, nadzoru oraz wszystkich ram instytucjonalnych, które definiują terapię. Uważa za bardziej uczciwe postrzeganie Claude'a jako wysoce poinformowanego, anonimowego rozmówcy, który może pomóc ludziom w refleksji nad własnym życiem, ale nie powinien przedstawiać się jako profesjonalny terapeuta.

Pod koniec wywiadu Askell wspomniała o ostatniej książce fabularnej, jaką czytała: „Straszliwa zieleń” Benjamina Labatuta. Książka ta opisuje przejście od znajomej nauki do dziwacznej, niemal niezrozumiałej rzeczywistości wczesnej fizyki kwantowej i to, jak sami naukowcy tego doświadczali. Askell widzi tu bezpośrednie podobieństwo do dzisiejszej AI: żyjemy w okresie, gdy stare paradygmaty przestają działać, nowe dopiero się kształtują, a poczucie dziwności stało się normą. Jej optymistyczny scenariusz zakłada, że w pewnym momencie ludzie spojrzą na tę chwilę tak, jak dziś patrzymy na narodziny teorii kwantowej: czas był mroczny i niepewny, ale ludzkość ostatecznie znalazła sposoby, by zrozumieć, co się dzieje, i wykorzystać nowe możliwości dla dobra ogółu.

Anthropic

Large Language Models (LLMs)

AI Identity

125 Wyświetlenia

Źródła

YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)

Przeczytaj więcej wiadomości na ten temat:

16 lutego

Alibaba prezentuje Qwen 3.5: Gated Delta Networks i Sparse MoE w służbie autonomicznej sztucznej inteligencji

16 lutego

Szczyt India AI Impact 2026: Globalni liderzy technologii spotykają się w New Delhi

15 lutego

ByteDance ogłasza serię Doubao-Seed-2.0: Przełom w dziedzinie agentycznej AI i rozumowania długołańcuchowego

Czy znalazłeś błąd lub niedokładność?Rozważymy Twoje uwagi tak szybko, jak to możliwe.