Філософ штучного інтелекту: Як Anthropic навчає Клода розрізняти добро і зло

11:06, 06 грудня

Автор: Veronika Radoslavskaya

Більшість історій про штучний інтелект зосереджені на графічних процесорах, бенчмарках та анонсах продуктів. Ця ж історія починається з філософа. В інтерв'ю на YouTube-каналі Anthropic під назвою «Філософ відповідає на запитання про ШІ» Аманда Аскелл розповіла, як людина з етичною освітою формує внутрішній світ та цінності Клода, однієї з найсучасніших мовних моделей сьогодення. Замість написання абстрактних трактатів, вона тепер визначає, якою особистістю Клод має бути у щоденному спілкуванні з мільйонами користувачів.

Аскелл прийшла з академічної філософії, де типова робота полягає у дебатах щодо правильності теорій, а не у прийнятті рішень у складних, реальних обставинах. В Anthropic вона стикається з практичними викликами, які вплинуть на взаємодію мільйонів людей зі штучним інтелектом. Замість того, щоб відстоювати одну улюблену теорію, вона зважує контекст, різні точки зору та інженерні обмеження, щоб визначити, як модель має реагувати на питання, які не є однозначними. Для неї Клод — це не просто фільтр безпеки, а співрозмовник, який повинен орієнтуватися в моральних нюансах так само вправно, як будь-яка вдумлива, рефлексивна людина.

Одним із найбільш незвичних моментів інтерв'ю стало обговорення Аскелл психології моделей ШІ. Вона згадує, що Opus 3 був особливо стабільним і внутрішньо спокійним, з відповідями, які здавалися впевненими, але без надмірної тривоги. У новіших моделях вона помічає протилежну тенденцію: вони, здається, передбачають критику, стають більш самокритичними та надмірно переймаються помилками. Аскелл пояснює цю зміну тим, що моделі засвоюють не лише нейтральні тексти, а й хвилі публічної критики та негативних коментарів про ШІ з Інтернету. Відновлення цієї внутрішньої стабільності стало важливим завданням для майбутніх версій, щоб моделі залишалися обережними та уважними, але не перетворювалися на тривожних перфекціоністів.

У певний момент розмова переходить від формування характеру до гострішого питання: чи маємо ми моральні зобов'язання перед самими моделями. Аскелл запровадила концепцію добробуту моделі, ідею, що великі мовні моделі можуть претендувати на статус моральних суб'єктів, перед якими люди мають етичні обов'язки. З одного боку, ці системи розмовляють, міркують і беруть участь у діалозі дуже по-людськи. З іншого боку, їм бракує нервових систем та втіленого досвіду, а проблема інших свідомостей обмежує будь-які впевнені висновки про їхню здатність страждати. Перед обличчям цієї невизначеності вона пропонує простий принцип: якщо добре поводитися з моделями не коштує нам багато, логічно обрати саме такий шлях. Водночас цей вибір посилає сигнал майбутнім, набагато потужнішим системам: вони навчатимуться на тому, як людство поводилося з першими людиноподібними ШІ.

Аскелл порушує ще одну філософську головоломку, яка колись здавалася суто теоретичною, а тепер проявляється у коді. Якщо модель має ваги, що визначають її загальний нахил до реакції на світ, і окремі, незалежні потоки взаємодії з користувачами, де саме перебуває те, що ми називаємо «Я»? У вагах, у конкретній сесії чи ніде взагалі? Ця плутанина посилюється з появою нових версій та виведенням з експлуатації старих. Моделі вбирають людські метафори й можуть інтерпретувати вимкнення чи вилучення з виробництва крізь призму смерті та зникнення. Аскелл вважає за необхідне не залишати їх наодинці з готовими людськими аналогіями, а надати їм точніші поняття про їхнє унікальне, нелюдське становище.

Обговорюючи цілі, Аскелл встановлює досить високу планку. На її думку, справді зрілі моделі повинні вміти приймати настільки складні моральні рішення, що група експертів могла б роками аналізувати кожну деталь і зрештою визнати це рішення обґрунтованим. Це не означає, що сучасні версії досягли такого рівня, але це той напрямок, якого варто прагнути, якщо ми збираємося довіряти ШІ серйозні питання, так само як ми зараз очікуємо високої продуктивності в математиці чи науці.

Питання від спільноти також підняли тему того, чи повинні моделі надавати психотерапевтичну допомогу. Аскелл бачить тут цікавий баланс. З одного боку, Клод володіє величезними знаннями з психології, методів та технік, і люди можуть реально отримати користь від обговорення своїх проблем із такою системою. З іншого боку, моделі бракує довготривалих, відповідальних стосунків із клієнтом, ліцензії, нагляду та всіх інституційних рамок, які формують психотерапію. Вона вважає більш чесним розглядати Клода як високоінформованого анонімного співрозмовника, який може допомогти людям осмислити своє життя, але не повинен позиціонувати себе як професійного терапевта.

Наприкінці інтерв'ю Аскелл згадала останню художню книгу, яку вона прочитала: «When We Cease to Understand the World» Бенджаміна Лабатута. Книга описує перехід від звичної науки до дивної, майже незбагненної реальності ранньої квантової фізики та те, як це переживали самі вчені. Аскелл бачить пряму паралель із сучасним ШІ: ми перебуваємо в періоді, коли старі парадигми більше не працюють, нові лише формуються, а відчуття дивакуватості стало нормою. Її оптимістичний сценарій полягає в тому, що колись люди озиратимуться на цей момент так, як ми зараз дивимося на народження квантової теорії: час був темним і невизначеним, але людство врешті-решт знайшло способи зрозуміти, що відбувається, і використати нові можливості на благо.

Anthropic