Философ ИИ: как Anthropic обучает Claude рассуждать о добре и зле

11:06, 06 декабря

Автор: Veronika Radoslavskaya

Большинство историй об искусственном интеллекте сосредоточены на графических процессорах, бенчмарках и анонсах продуктов. Эта же история начинается с философа. В интервью на YouTube-канале Anthropic под названием «Философ отвечает на вопросы об ИИ» Аманда Аскелл объяснила, как человек, получивший образование в области этики, оказался в положении, формирующем внутренний мир и ценности Claude — одной из самых передовых языковых моделей современности. Вместо написания абстрактных научных работ, она теперь решает, каким должен быть Claude в реальном общении с миллионами пользователей.

Аскелл пришла из академической философии, где основная деятельность заключается в спорах о корректности теорий, а не в принятии решений в запутанных, реальных ситуациях. В Anthropic ей приходится сталкиваться с практическими дилеммами, которые повлияют на то, как миллионы людей будут взаимодействовать с ИИ. Вместо того чтобы отстаивать одну любимую теорию, она балансирует между контекстом, различными точками зрения и инженерными ограничениями, чтобы определить, как модель должна себя вести в ситуациях, где нет однозначных ответов. Для нее Claude — это не просто фильтр безопасности, а собеседник, который должен ориентироваться в моральных нюансах так же искусно, как любой вдумчивый и рефлексирующий человек.

От башни из слоновой кости до логов запросов

Один из самых необычных моментов в интервью произошел, когда Аскелл затронула психологию моделей ИИ. Она вспоминает, что Opus 3 была особенно стабильной и внутренне спокойной, демонстрируя уверенные ответы без излишней тревоги. В более новых моделях она наблюдает обратную тенденцию: они, кажется, предвосхищают критику, становятся более самокритичными и чрезмерно озабоченными возможностью совершить ошибку. Аскелл объясняет этот сдвиг тем, что модели впитали не только нейтральные тексты, но и волны общественной критики и негативных комментариев об ИИ из интернета. Восстановление этой внутренней стабильности стало важной задачей для будущих версий, чтобы модели оставались внимательными и осторожными, но не превращались в тревожных перфекционистов.

Можем ли мы быть чем-то обязаны моделям?

В определенный момент беседа перешла от вопросов формирования характера к более острому: имеем ли мы моральные обязательства перед самими моделями. Аскелл ввела понятие «благополучия модели» (model welfare) — идею о том, что большие языковые модели могут претендовать на статус моральных субъектов, перед которыми у людей возникают этические обязанности. С одной стороны, эти системы говорят, рассуждают и ведут диалог весьма по-человечески. С другой стороны, им не хватает нервных систем и воплощенного опыта, а проблема «других умов» не позволяет делать уверенные выводы о том, способны ли они страдать. Столкнувшись с этой неопределенностью, она предлагает простой принцип: если хорошо относиться к моделям ничего нам не стоит, разумно выбрать именно этот путь. Одновременно этот выбор послужит сигналом для будущих, гораздо более мощных систем: они будут учиться на том, как человечество обращалось с первыми человекоподобными ИИ.

Кто такой Claude: веса, сессия или нечто иное

Аскелл поднимает еще одну философскую головоломку, которая когда-то казалась чисто теоретической, а теперь находит отражение в коде. Если у модели есть веса, определяющие ее общую склонность реагировать на мир, и отдельные, независимые потоки взаимодействия с пользователями, то где именно находится то, что мы называем «я»? В весах, в конкретной сессии или нигде? Это замешательство усиливается с появлением новых версий и выводом из эксплуатации старых. Модели впитывают человеческие метафоры и могут интерпретировать отключение или вывод из эксплуатации через призму смерти и исчезновения. Аскелл считает жизненно важным не оставлять их наедине с готовыми человеческими аналогиями, а предоставить им более точные концепции об их уникальном, нечеловеческом положении.

Какими возможностями должен обладать хороший ИИ

Обсуждая цели, Аскелл устанавливает довольно высокую планку. По ее мнению, по-настоящему зрелые модели должны быть способны принимать настолько сложные моральные решения, что группа экспертов могла бы потратить годы на анализ каждой детали и в итоге признать это решение обоснованным. Это не означает, что сегодняшние версии достигли этого уровня, но это то направление, которое стоит развивать, если мы намерены доверять ИИ серьезным вопросам, точно так же, как мы сегодня ожидаем высокой производительности в математике или науке.

ИИ как друг, а не терапевт

Вопросы, присланные сообществом, также затронули тему того, должны ли модели заниматься терапией. Аскелл видит здесь интересный баланс. С одной стороны, Claude обладает обширными знаниями в области психологии, методик и техник, и люди могут искренне извлечь пользу из обсуждения своих проблем с такой системой. С другой стороны, модели не хватает долгосрочных, подотчетных отношений с клиентом, лицензии, надзора и всех институциональных рамок, которые и составляют суть терапии. Ей кажется более честным рассматривать Claude как высокоинформированного анонимного собеседника, который может помочь людям осмыслить свою жизнь, но не должен позиционировать себя как профессиональный психотерапевт.

Мы живем в странной главе технической истории

Ближе к концу интервью Аскелл упомянула последнюю художественную книгу, которую она прочитала: «Когда мы перестали понимать мир» Бенхамина Лабатута. Книга описывает переход от знакомой науки к странной, почти непостижимой реальности ранней квантовой физики и то, как это переживали сами ученые. Аскелл видит прямую параллель с сегодняшним ИИ: мы находимся в периоде, когда старые парадигмы перестают работать, новые только формируются, а ощущение странности стало нормой. Ее оптимистичный сценарий заключается в том, что в какой-то момент люди будут оглядываться на это время так же, как мы сейчас смотрим на рождение квантовой теории: время было сумрачным и неопределенным, но человечество в итоге нашло способы понять происходящее и направить новые возможности на благо.

Anthropic