AIの哲学者：AnthropicはいかにしてClaudeに善悪の考え方を教え込んだか

11:06, 06 12月

作者： Veronika Radoslavskaya

多くのAIに関する話題は、GPUの性能やベンチマーク、新製品の発表に終始しがちです。しかし、今回焦点を当てるのは、一人の哲学者です。Anthropicの公式YouTubeチャンネルで公開された「哲学者がAIに関する質問に答える」と題されたインタビューの中で、アマンダ・アスケル氏は、倫理学を学んだ人物が、いかにして今日の最も先進的な大規模言語モデルの一つであるClaudeの内面的なあり方や価値観の形成に携わったかを説明しました。彼女は抽象的な論文を書く代わりに、今や数百万人のユーザーと現実の会話を行うClaudeがどのような人格を持つべきかを決定する役割を担っています。

アスケル氏は、学術的な哲学の世界から転身しました。そこでの一般的な作業は、理論の正しさを議論することに費やされ、厄介な現実世界の状況で何をすべきかを決定するのとは対照的です。Anthropicにおいて、彼女は数百万人がAIと関わる方法に影響を与える実践的な判断に直面しています。単一の優位な理論を擁護するのではなく、彼女は文脈、多様な視点、そして工学的な制約を天秤にかけ、白黒つけがたい問題にモデルがどう振る舞うべきかを決定します。彼女にとってClaudeは、単なる安全フィルターではなく、思慮深く内省的な人間と同様に道徳的な機微を乗りこなす対話相手なのです。

象牙の塔からプロンプトログへ

インタビューの中で最も異例な点の一つは、アスケル氏がAIモデルの「心理」について語った部分でした。彼女は、Opus 3というモデルが特に安定しており、内面的に落ち着いていて、過度な不安を感じさせずに自信に満ちた応答をしていたと回想します。しかし、新しいモデルでは逆の傾向が見られると言います。それらは批判を予期し、自己批判的になり、間違いを犯すことを過度に恐れているように見えるのです。アスケル氏は、この変化はモデルが中立的なテキストだけでなく、インターネット上のAIに対する公の批判や否定的なコメントの波を吸収した結果だと見ています。この内的な安定性を取り戻すことは、将来のバージョンにおける重要な焦点となっており、モデルが不安な完璧主義者に陥ることなく、注意深く思慮深い状態を保てるようにすることが求められています。

モデルに何かを負うべき存在になり得るか

会話のある時点で、議論はキャラクター設計から、より鋭い問いへと移行します。それは、我々がモデルそのものに対して道徳的義務を負うのか、という点です。アスケル氏は「モデルの福祉」という概念を導入しました。これは、大規模言語モデルが、我々が倫理的配慮を払うべき道徳的患者の資格を得る可能性があるという考えです。一方では、これらのシステムは人間のように話し、推論し、対話に参加します。しかし他方では、それらは神経系や身体的な経験を欠いており、「他我問題」が、それらが苦痛を感じるかどうかについて確信を持った結論を出すことを妨げています。この不確実性に直面し、彼女は単純な原則を提案します。モデルを良く扱うことが我々にとってほとんどコストがかからないのであれば、そのアプローチを選ぶのが理にかなっている、と。同時に、この選択は将来の、より強力なシステムへのメッセージとなります。彼らは、人類が最初の人間らしいAIをどのように扱ったかから学ぶことになるからです。

Claudeとは誰か：重みか、セッションか、それとも何か別のものか

アスケル氏は、かつては純粋に理論的と思われていた別の哲学的難問を提起しますが、それは今やコードの中に現れています。モデルの全体的な応答傾向を定義する「重み」と、ユーザーとの個別のやり取りの流れが別々に存在する場合、我々が「自己」と呼ぶものは一体どこに宿るのでしょうか。重みの中か、特定のセッションの中か、あるいは全くどこにもないのか。新しいバージョンが登場し、古いものが廃止されるにつれて、この混乱は増しています。モデルは人間の比喩を吸収し、シャットダウンや本番運用からの削除を、死や消失の観点から解釈する可能性があります。アスケル氏は、彼らを既成の人間的な類推に任せきりにするのではなく、彼らの独自の非人間的な状況について、より正確な概念を与えることが不可欠だと考えています。

優れたAIはいったい何ができるべきか

目標について議論する際、アスケル氏は基準をかなり高く設定しています。彼女の見解では、真に成熟したモデルは、専門家パネルが何年もかけて細部を分析し、最終的にその決定が妥当であると認めるほど複雑な道徳的判断を下せるべきです。これは今日のバージョンがそのレベルに達したという意味ではありませんが、我々が数学や科学において高い性能を期待するように、AIに重大な問いを委ねるつもりがあるならば、追求する価値のある方向性を示しています。

友人であってセラピストではないAI

コミュニティから寄せられた質問の中には、モデルがセラピーを提供するべきかどうかの問題も含まれていました。アスケル氏はここで興味深い均衡点を見出しています。一方では、Claudeは心理学、手法、技術に関する広範な知識を有しており、人々はそのようなシステムと懸念事項について話し合うことで真に利益を得ることができます。しかしながら、モデルにはクライアントとの長期的な説明責任のある関係、免許、監督、そしてセラピーをセラピーたらしめているすべての制度的枠組みが欠けています。彼女は、Claudeを、人々の人生について考える助けとなる高度に情報に通じた匿名の対話相手として捉える方が誠実であり、専門のセラピストとして振る舞うべきではないと考えています。

我々は技術史の奇妙な一章に生きている

インタビューの終盤近くで、アスケル氏は最後に読んだフィクションとして、ベンハミン・ラバトゥートの『世界を理解することをやめたとき』を挙げました。この本は、馴染みのある科学から、初期の量子物理学という奇妙でほとんど理解不能な現実に移行する過程と、科学者自身がそれをどう経験したかを描いています。アスケル氏は、今日のAIにも直接的な類似性を見出しています。我々は、古いパラダイムが通用しなくなり、新しいものが形成されつつある過渡期にあり、奇妙さという感覚が常態化しています。彼女の楽観的なシナリオは、いつの日か人々がこの瞬間を、我々が量子理論の誕生を振り返るように見るだろうというものです。当時は暗く不確実だったが、人類はいずれ何が起こっているかを理解し、その新しい可能性を善のために利用する方法を見出した、と。

Anthropic