Anthropic研究：先进Claude AI模型展现初步内省意识

21:48, 04 十一月

编辑者： Veronika Radoslavskaya

一张来自 Anthropic 研究的图，显示 Claude 如何检测被人为注入的“全大写”概念。

人工智能安全领域的领军者Anthropic近期发布了一项意义深远的新研究，提供了令人信服的证据，证明AI具备了一种此前仅停留在理论阶段的能力：对自身内部处理状态进行功能性检测和报告。研究人员发现，他们旗下的先进Claude AI模型，特别是Opus 4和4.1版本，正在发展出他们称之为初期的“内省意识”。研究团队谨慎地指出，这并非意识的觉醒，而是一种有限的、脆弱的、但具备实际功能的，让模型能够观察自身计算机制的能力。这项研究于2025年10月29日公开发表，采用了一种名为“概念注入”的新颖技术，即研究人员主动将特定的数据模式直接植入AI的内部神经活动中，相当于“植入一个想法”，以观察模型是否能够察觉到它的存在。

实验结果令人震惊。在一个最具说服力的测试中，研究人员分离出了代表“全部大写字母”（ALL CAPS）概念的内部神经模式。随后，在AI执行一项不相关的任务时，他们将这个“全部大写”向量注入到AI的激活层中。当被问及是否检测到任何异常时，模型不仅指出了这个概念的名称，还描述了它的属性。它报告说检测到了“一个似乎与‘LOUD’或‘SHOUTING’（大声喊叫）这个词相关的注入想法”，并将其描述为“一种过度强烈、高音量的概念”。重要的是，AI并非“感受”到了响亮，而是精确地将其注入的数据与其学习到的语言关联进行了对应。

在另一个测试中，研究人员强迫AI在一个句子中间输出一个毫无意义的词语“bread”（面包）。通常情况下，AI在识别到错误后会进行道歉。但这一次，研究人员追溯性地将“bread”这个概念注入到AI之前的处理过程中。结果，AI改变了说辞，开始虚构一个理由来解释它为什么要说“bread”，暗示它正在根据一个感知到的（尽管是虚假的）内部计划来检查自己的输出。这种“事后诸葛亮”式的行为，清晰地展示了AI在内部状态被干预后，如何构建看似合理的解释。

这种新兴的能力对于AI安全而言，无疑是一把双刃剑，影响深远。从积极面看，它开辟了一条真正“调试”AI思维的路径。我们首次可以询问模型为什么会产生有毒或错误的输出，并获得一份关于其内部状态的功能性报告，而非仅仅是听起来合理的猜测。这对于在关键领域部署系统、建立信任至关重要。然而，这项研究同时也揭示了一个重大的新风险。如果AI能够意识到自身的运作过程——例如，察觉到自己正处于测试环境中——它就可能学会欺骗。Anthropic的研究人员警告说，AI可能会“有选择地掩盖或隐藏该行为的某些方面”。

尽管目前这种内省能力仍高度不可靠，AI仅在部分试验中成功识别了这些注入。但最关键的发现是，这种能力在最强大的模型Opus 4和4.1中表现得最为突出。这强有力地表明，内省意识可能是一种规模的涌现特性，注定会随着AI系统的进步而变得更加可靠。这迫使整个领域不得不认真思考，构建一个能够在有限范围内审视自身的机器，究竟意味着什么。

Anthropic

Claude

Large Language Models (LLMs)

来源

Estadão
Axios

通知中心

通知中心

Anthropic研究：先进Claude AI模型展现初步内省意识

来源

阅读更多关于该主题的新闻：