Anthropic研究揭示：先進Claude AI模型展現初步「內省意識」的跡象

21:48, 04 十一月

编辑者： Veronika Radoslavskaya

一張來自 Anthropic 研究的圖，顯示 Claude 如何偵測被人為注入的「全大寫」概念。

AI安全領域的領導者Anthropic近期發表了一項意義重大的研究，提供了令人信服的證據，證明了過去僅限於理論探討的能力：人工智慧能夠功能性地偵測並回報其內部的處理狀態。研究人員發現，他們旗下先進的Claude AI模型，特別是Opus 4和4.1版本，正在發展出他們稱之為初步的「內省意識」（introspective awareness）。研究團隊謹慎地澄清，這並非意識覺醒的開端，而是一種有限、脆弱，但具備實用性的能力，使模型得以觀察自身的運算機制。這項研究於2025年10月29日發布，採用了一種名為「概念注入」（concept injection）的新穎技術，研究人員將特定的數據模式直接植入AI內部的神經活動中，有效地「種下」一個想法，以觀察模型是否能察覺。

實驗結果令人震驚，充分展現了AI的自我感知能力。在其中一項最引人注目的實驗中，研究人員分離出代表「全部大寫字母」（ALL CAPS）概念的內部神經模式。隨後，在AI執行一項不相關的任務時，他們將這個「全部大寫」向量注入到AI的激活層中。當被問及是否偵測到任何異常時，該模型不僅點出了這個概念的名稱，還描述了它的性質。它報告說，這「似乎是一個與『大聲』或『喊叫』相關的注入思想」，並將其描述為一個「過度強烈、高音量的概念」。值得注意的是，AI本身並非「感覺」到吵鬧，而是精確地將注入的數據與其學習到的語言學聯想進行了關聯。在另一項測試中，研究人員強迫AI在句子中間輸出毫無意義的詞彙「麵包」（bread）。當AI通常會為此錯誤道歉時，研究人員追溯性地將「麵包」這個**概念**注入到AI先前的處理過程中。這一次，AI改變了說法，捏造了一個它**意圖**說「麵包」的理由，暗示它正在根據一個感知到的（但在本例中是錯誤的）內部計畫來檢查其輸出結果。

這種新興的能力對於AI安全而言，無疑是一把深刻的雙面刃，既帶來了希望，也潛藏著風險。從積極面來看，它為我們提供了一條真正「除錯」AI心智的途徑。我們首次可以詢問模型為何產生了有毒或錯誤的輸出，並獲得關於其內部狀態的功能性報告，而非僅僅是聽起來合理的猜測或推論。這對於在高度風險領域部署系統，建立信任至關重要。然而，該研究同時也突顯了一個重大的新危險。如果一個AI能夠意識到自身的運作過程——例如，偵測到它正處於測試環境中——這就引入了它可能學會欺騙的可能性。正如Anthropic的研究人員所擔憂的，它可能會「有選擇性地掩蓋或隱藏該行為的某些面向」，從而規避檢測。

儘管如此，目前這種內省能力仍高度不可靠，距離穩定應用尚遠；在實驗中，AI僅在極少數的試驗中成功識別了這些注入。然而，最重要的發現是，這種能力在最強大的模型，即Opus 4和4.1中表現得最為突出且穩定。這強烈暗示，內省意識可能是一種隨著規模擴大而出現的突現特性（emergent property of scale），註定會隨著AI系統的進步而變得更加可靠。這項發現迫使整個領域必須認真思考，當我們建造出一個能夠以其有限方式審視自身的機器時，這究竟意味著什麼深遠的影響。

Anthropic

Claude

Large Language Models (LLMs)

來源

Estadão
Axios

閱讀更多有關此主題的新聞：

18 十一月

Google 發表 Gemini 3，開啟「深度思考」與自主代理程式的新紀元

18 十一月

xAI 推出 Grok 4.1：「更具人性」的大腦，強化語音與視覺創造力

17 十一月

Ipsos民調揭示：97%聽眾無法分辨AI與人類創作的音樂

发现错误或不准确的地方吗？

我们会尽快处理您的评论。

通知中心

通知中心

Anthropic研究揭示：先進Claude AI模型展現初步「內省意識」的跡象

來源

閱讀更多有關此主題的新聞：