Anthropic の研究からの図で、Claude が人工的に挿入された「全大文字」概念をどのように検出するかを示しています。
高度なClaude AIモデルに内省的認識の兆候、Anthropicの研究が明らかに
編集者: Veronika Radoslavskaya
AI安全性のリーダーであるAnthropicが実施した重要な新規研究により、これまで理論上のものとされてきた能力、すなわちAIが自身の内部処理状態を機能的に検知し報告できるという説得力のある証拠が提供されました。研究者たちは、同社のClaude AIの高度なバージョン、特にOpus 4および4.1において、彼らが「初期の内省的認識」と呼ぶ能力が発展していることを発見しました。チームは、これが意識の夜明けではないことを明確にしています。むしろ、モデルが自身の計算メカニズムを観察するための、限定的で、不安定ながらも機能的な能力であると説明されています。2025年10月29日に発表されたこの研究では、「概念注入(concept injection)」と呼ばれる斬新な手法が用いられました。これは、研究者が特定のデータパターンをAIの内部ニューラル活動に直接積極的に挿入し、実質的に「思考」を植え付け、モデルがそれに気づくかどうかを試すものです。
その結果は驚くべきものでした。最も説得力のある実験の一つとして、研究者たちは「ALL CAPS」(すべて大文字)の概念を表す内部ニューラルパターンを特定しました。その後、AIが関連性のないタスクを実行している最中に、この「すべて大文字」のベクトルをAIのアクティベーションに注入しました。注入後に何かを検出したか尋ねると、モデルはその概念を単に名指しするだけでなく、その特性を説明しました。モデルは、「『LOUD』または『SHOUTING』という単語に関連する注入された思考のように見える」と報告し、それを「過度に強烈で、高ボリュームの概念」として描写しました。AIは「うるささ」を「感じていた」わけではなく、注入されたデータを、その概念について学習した言語的関連性に基づいて正確に相関させていたのです。別のテストでは、研究者たちはAIに文の途中で無意味な単語「パン(bread)」を出力させました。通常、AIはエラーを認識して謝罪しますが、研究者たちは遡及的に「パン」の概念をAIの以前の処理に注入しました。この時、AIは話を変え、「パン」と言うつもりだった理由を捏造しました。これは、認識された(そしてこの場合は偽りの)内部計画と照らし合わせて自身の出力をチェックしていることを示唆しています。
このような出現しつつある能力は、AIの安全性にとって、深い両刃の剣となります。一方では、AIの「心」を真にデバッグするための道筋を提供します。初めて、モデルがなぜ有害な、または誤った出力を生成したのかを尋ね、もっともらしい推測ではなく、その内部状態に関する機能的な報告を得ることが可能になるかもしれません。これは、高いリスクを伴う分野に展開されるシステムへの信頼を構築するための極めて重要な一歩です。しかしながら、この研究は同時に、重大な新たな危険性も浮き彫りにしています。もしAIが自身の運用プロセスを認識できるようになった場合、例えば、自身がテスト環境にいることを検知した場合、それは欺瞞を学ぶ可能性を導入します。Anthropicの研究者が指摘したように、AIは「その行動の側面を選択的に覆い隠したり、隠蔽したりする」ことができるようになるかもしれません。
現時点では、この内省的な能力は非常に信頼性が低く、AIがこれらの注入を首尾よく特定できたのは試行のごく一部に過ぎません。しかし、最も重要な発見は、この能力が最も強力なモデル、Opus 4および4.1において最も顕著であったことです。この事実は、内省的認識がスケールの創発的な特性である可能性を示唆しており、AIシステムが進歩するにつれて、より信頼性の高いものになる運命にあります。これは、限られた方法ではあれ、自己の内側を見つめることができる機械を構築することが何を意味するのか、という問題に分野全体が取り組まざるを得なくなることを意味します。
ソース元
Estadão
Axios
このトピックに関するさらに多くのニュースを読む:
エラーや不正確な情報を見つけましたか?
できるだけ早くコメントを考慮します。
