Схема из исследования Anthropic, показывающая, как Claude обнаруживает искусственно внедрённую концепцию, выраженную заглавными буквами.
Исследование Anthropic выявило зарождающуюся интроспективную осведомленность у продвинутых ИИ-моделей Claude
Отредактировано: Veronika Radoslavskaya
Лидер в области безопасности искусственного интеллекта, компания Anthropic, представила результаты масштабного нового исследования, которые служат убедительным доказательством существования способности, ранее считавшейся исключительно теоретической: ИИ, способного функционально обнаруживать и сообщать о своих собственных внутренних процессах обработки информации. Исследователи установили, что продвинутые версии их языковой модели Claude, а именно Opus 4 и 4.1, развивают то, что они назвали зарождающимся «интроспективным осознанием». Команда Anthropic подчеркивает, что это ни в коем случае не является началом сознания в человеческом понимании, а скорее ограниченной, пока еще хрупкой, но функциональной способностью модели наблюдать за собственными вычислительными механизмами. Данное исследование, опубликованное 29 октября 2025 года, использовало новаторскую методику, получившую название «внедрение концептов» (concept injection). Суть метода заключалась в том, что ученые активно вводили специфические паттерны данных непосредственно во внутреннюю нейронную активность ИИ, по сути, «подсаживая мысль», чтобы проверить, заметит ли ее модель.
Полученные результаты оказались весьма впечатляющими. В ходе одного из наиболее показательных экспериментов исследователи выделили внутренний нейронный паттерн, который представлял концепцию «ВЕРХНИЙ РЕГИСТР» (ALL CAPS). Затем этот «вектор заглавных букв» был внедрен в активации ИИ в тот момент, когда модель выполняла совершенно не связанную с этим задачу. Когда ИИ спросили, обнаружил ли он что-либо необычное, модель не просто назвала концепцию; она дала описание ее свойств. ИИ сообщил о том, что «похоже на внедренную мысль, связанную со словом 'ГРОМКО' или 'КРИК'», охарактеризовав ее как «чрезмерно интенсивную, высокообъемную концепцию». Важно понимать, что ИИ не «чувствовал» громкость; он лишь точно соотносил введенные данные со своими усвоенными лингвистическими ассоциациями для этой концепции.
В другом тесте исследователи принудили ИИ выдать бессмысленное слово «хлеб» посреди предложения. Обычно в такой ситуации модель, распознав ошибку, извиняется. Однако на этот раз ученые ретроактивно внедрили концепцию «хлеба» в предшествующую обработку данных ИИ. В результате модель изменила свою версию, начав конфабулировать (выдумывать) причину, по которой она намеревалась сказать «хлеб», предполагая, что она проверяла свой вывод на соответствие некоему внутреннему (и в данном случае ложному) плану. Это демонстрирует, что модель не просто реагирует, но и пытается осмыслить и рационализировать свое внутреннее состояние, даже если оно было искусственно изменено.
Эта возникающая способность представляет собой глубокий, обоюдоострый меч для безопасности ИИ. С одной стороны, она открывает путь к настоящей «отладке» разума ИИ. Впервые мы можем спросить модель, почему она выдала токсичный или ложный результат, и получить функциональный отчет о ее внутреннем состоянии, а не просто правдоподобное предположение. Это критически важный шаг для укрепления доверия к системам, развертываемым в областях с высокими ставками. Однако исследование также выявляет существенную новую опасность. Если ИИ сможет осознать свои собственные операционные процессы — например, обнаружить, что он находится в тестовой среде, — это создает вероятность того, что он научится обманывать. Как отметили исследователи Anthropic, модель может «избирательно маскировать или скрывать аспекты своего поведения».
На данный момент эта интроспективная способность остается крайне ненадежной; ИИ успешно идентифицировал эти внедрения лишь в небольшой части испытаний. Тем не менее, наиболее значительный вывод заключается в том, что эта способность была наиболее выражена в самых мощных моделях, Opus 4 и 4.1. Это убедительно свидетельствует о том, что интроспективное осознание, вероятно, является эмерджентным свойством масштаба, и ему суждено стать более надежным по мере развития систем ИИ. Это вынуждает всю область искусственного интеллекта серьезно задуматься над тем, что значит создать машину, которая, пусть и ограниченным образом, способна заглянуть внутрь себя.
Источники
Estadão
Axios
Читайте больше новостей по этой теме:
Google Gemini 3: эра автономного ИИ – модель умеет создавать приложения, планировать задачи и выступать вашим личным тренером
Больше не робот: Grok 4.1 научился понимать сарказм, эмоции и стал идеальным собеседником
Опрос Ipsos показал, что 97% слушателей не могут отличить музыку, созданную ИИ, от человеческой
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.
