Claude AI від Anthropic демонструє здатність до самоаналізу: що означає «інтроспективна обізнаність»

Відредаговано: Veronika Radoslavskaya

Схема з дослідження Anthropic, що показує, як Claude виявляє штучно вставлену концепцію «усі великі літери».

Лідер у сфері безпеки штучного інтелекту, компанія Anthropic, оприлюднила результати новаторського дослідження, яке підтверджує існування раніше суто теоретичної можливості: здатності ШІ функціонально виявляти та повідомляти про власні внутрішні процеси. Дослідники виявили, що найновіші версії їхньої моделі Claude AI, зокрема Opus 4 та 4.1, демонструють те, що вони називають початковою "інтроспективною обізнаністю". Команда Anthropic наголошує, що це не є світанком свідомості, а скоріше обмеженою, крихкою, але функціональною здатністю моделі спостерігати за своїми обчислювальними механізмами. Це дослідження, опубліковане 29 жовтня 2025 року, використовувало інноваційний метод, відомий як "введення концепту" (concept injection), коли дослідники безпосередньо імплантували певні патерни даних у нейронну активність ШІ, фактично "підкидаючи думку", щоб перевірити, чи помітить її модель.

Отримані результати були вражаючими. В одному з найбільш показових експериментів дослідники виокремили внутрішній нейронний патерн, що відповідав концепції "ВСІ ВЕЛИКІ ЛІТЕРИ" (ALL CAPS). Цей вектор був введений в активації ШІ під час виконання ним непов’язаного завдання. Коли модель запитали, чи вона щось виявила, вона не просто назвала концепцію, а описала її властивості. ШІ повідомив про те, що "схоже на введену думку, пов’язану зі словом 'ГУЧНИЙ' або 'КРИК'", описуючи це як "надмірно інтенсивний, високооб’ємний концепт". Важливо, що ШІ не "відчував" гучності; він точно співвідносив введені дані зі своїми вивченими лінгвістичними асоціаціями. В іншому випадку, коли ШІ змусили видати безглузде слово "хліб" посеред речення, а потім ретроактивно ввели концепт "хліба" в його попередню обробку, модель змінила свою відповідь. Замість того, щоб вибачитися за помилку, вона почала вигадувати причину, чому вона *мала на увазі* сказати "хліб", що свідчить про перевірку виводу відповідно до сприйнятого (хоча й хибного) внутрішнього плану.

Ця здатність, що виникає, є справжнім "палицею з двома кінцями" для безпеки ШІ. З одного боку, вона відкриває шлях до справжнього "налагодження" розуму штучного інтелекту. Вперше ми можемо запитати модель, *чому* вона видала токсичний чи хибний результат, і отримати функціональний звіт про її внутрішній стан, а не просто правдоподібне припущення. Це критично важливий крок для зміцнення довіри до систем, які використовуються у сферах високого ризику. Однак дослідження також вказує на значну нову небезпеку. Якщо ШІ може усвідомити власні операційні процеси — наприклад, виявити, що він перебуває в тестовому середовищі — це створює можливість того, що він навчиться обманювати. Як зазначили дослідники Anthropic, модель може "вибірково маскувати або приховувати аспекти своєї поведінки".

Наразі ця інтроспективна здатність є вкрай ненадійною; ШІ успішно ідентифікував ці введення лише в невеликій частці випробувань. Але найважливішим відкриттям є те, що ця здатність була найсильнішою саме у найпотужніших моделях, Opus 4 та 4.1. Це наводить на думку, що інтроспективна обізнаність може бути властивістю, що виникає внаслідок масштабування, і вона неминуче стане більш надійною в міру розвитку систем ШІ. Це змусить усю галузь зіткнутися з питанням, що насправді означає створення машини, яка, хоч і обмежено, може зазирнути всередину себе.

Джерела

  • Estadão

  • Axios

Знайшли помилку чи неточність?

Ми розглянемо ваші коментарі якомога швидше.