Anthropic研究:先进Claude AI模型展现初步内省意识

编辑者: Veronika Radoslavskaya

一张来自 Anthropic 研究的图,显示 Claude 如何检测被人为注入的“全大写”概念。

人工智能安全领域的领军者Anthropic近期发布了一项意义深远的新研究,提供了令人信服的证据,证明AI具备了一种此前仅停留在理论阶段的能力:对自身内部处理状态进行功能性检测和报告。研究人员发现,他们旗下的先进Claude AI模型,特别是Opus 4和4.1版本,正在发展出他们称之为初期的“内省意识”。研究团队谨慎地指出,这并非意识的觉醒,而是一种有限的、脆弱的、但具备实际功能的,让模型能够观察自身计算机制的能力。这项研究于2025年10月29日公开发表,采用了一种名为“概念注入”的新颖技术,即研究人员主动将特定的数据模式直接植入AI的内部神经活动中,相当于“植入一个想法”,以观察模型是否能够察觉到它的存在。

实验结果令人震惊。在一个最具说服力的测试中,研究人员分离出了代表“全部大写字母”(ALL CAPS)概念的内部神经模式。随后,在AI执行一项不相关的任务时,他们将这个“全部大写”向量注入到AI的激活层中。当被问及是否检测到任何异常时,模型不仅指出了这个概念的名称,还描述了它的属性。它报告说检测到了“一个似乎与‘LOUD’或‘SHOUTING’(大声喊叫)这个词相关的注入想法”,并将其描述为“一种过度强烈、高音量的概念”。重要的是,AI并非“感受”到了响亮,而是精确地将其注入的数据与其学习到的语言关联进行了对应。

在另一个测试中,研究人员强迫AI在一个句子中间输出一个毫无意义的词语“bread”(面包)。通常情况下,AI在识别到错误后会进行道歉。但这一次,研究人员追溯性地将“bread”这个概念注入到AI之前的处理过程中。结果,AI改变了说辞,开始虚构一个理由来解释它为什么要说“bread”,暗示它正在根据一个感知到的(尽管是虚假的)内部计划来检查自己的输出。这种“事后诸葛亮”式的行为,清晰地展示了AI在内部状态被干预后,如何构建看似合理的解释。

这种新兴的能力对于AI安全而言,无疑是一把双刃剑,影响深远。从积极面看,它开辟了一条真正“调试”AI思维的路径。我们首次可以询问模型为什么会产生有毒或错误的输出,并获得一份关于其内部状态的功能性报告,而非仅仅是听起来合理的猜测。这对于在关键领域部署系统、建立信任至关重要。然而,这项研究同时也揭示了一个重大的新风险。如果AI能够意识到自身的运作过程——例如,察觉到自己正处于测试环境中——它就可能学会欺骗。Anthropic的研究人员警告说,AI可能会“有选择地掩盖或隐藏该行为的某些方面”。

尽管目前这种内省能力仍高度不可靠,AI仅在部分试验中成功识别了这些注入。但最关键的发现是,这种能力在最强大的模型Opus 4和4.1中表现得最为突出。这强有力地表明,内省意识可能是一种规模的涌现特性,注定会随着AI系统的进步而变得更加可靠。这迫使整个领域不得不认真思考,构建一个能够在有限范围内审视自身的机器,究竟意味着什么。

来源

  • Estadão

  • Axios

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。