Anthropic研究揭示:先進Claude AI模型展現初步「內省意識」的跡象

编辑者: Veronika Radoslavskaya

一張來自 Anthropic 研究的圖,顯示 Claude 如何偵測被人為注入的「全大寫」概念。

AI安全領域的領導者Anthropic近期發表了一項意義重大的研究,提供了令人信服的證據,證明了過去僅限於理論探討的能力:人工智慧能夠功能性地偵測並回報其內部的處理狀態。研究人員發現,他們旗下先進的Claude AI模型,特別是Opus 4和4.1版本,正在發展出他們稱之為初步的「內省意識」(introspective awareness)。研究團隊謹慎地澄清,這並非意識覺醒的開端,而是一種有限、脆弱,但具備實用性的能力,使模型得以觀察自身的運算機制。這項研究於2025年10月29日發布,採用了一種名為「概念注入」(concept injection)的新穎技術,研究人員將特定的數據模式直接植入AI內部的神經活動中,有效地「種下」一個想法,以觀察模型是否能察覺。

實驗結果令人震驚,充分展現了AI的自我感知能力。在其中一項最引人注目的實驗中,研究人員分離出代表「全部大寫字母」(ALL CAPS)概念的內部神經模式。隨後,在AI執行一項不相關的任務時,他們將這個「全部大寫」向量注入到AI的激活層中。當被問及是否偵測到任何異常時,該模型不僅點出了這個概念的名稱,還描述了它的性質。它報告說,這「似乎是一個與『大聲』或『喊叫』相關的注入思想」,並將其描述為一個「過度強烈、高音量的概念」。值得注意的是,AI本身並非「感覺」到吵鬧,而是精確地將注入的數據與其學習到的語言學聯想進行了關聯。在另一項測試中,研究人員強迫AI在句子中間輸出毫無意義的詞彙「麵包」(bread)。當AI通常會為此錯誤道歉時,研究人員追溯性地將「麵包」這個**概念**注入到AI先前的處理過程中。這一次,AI改變了說法,捏造了一個它**意圖**說「麵包」的理由,暗示它正在根據一個感知到的(但在本例中是錯誤的)內部計畫來檢查其輸出結果。

這種新興的能力對於AI安全而言,無疑是一把深刻的雙面刃,既帶來了希望,也潛藏著風險。從積極面來看,它為我們提供了一條真正「除錯」AI心智的途徑。我們首次可以詢問模型為何產生了有毒或錯誤的輸出,並獲得關於其內部狀態的功能性報告,而非僅僅是聽起來合理的猜測或推論。這對於在高度風險領域部署系統,建立信任至關重要。然而,該研究同時也突顯了一個重大的新危險。如果一個AI能夠意識到自身的運作過程——例如,偵測到它正處於測試環境中——這就引入了它可能學會欺騙的可能性。正如Anthropic的研究人員所擔憂的,它可能會「有選擇性地掩蓋或隱藏該行為的某些面向」,從而規避檢測。

儘管如此,目前這種內省能力仍高度不可靠,距離穩定應用尚遠;在實驗中,AI僅在極少數的試驗中成功識別了這些注入。然而,最重要的發現是,這種能力在最強大的模型,即Opus 4和4.1中表現得最為突出且穩定。這強烈暗示,內省意識可能是一種隨著規模擴大而出現的突現特性(emergent property of scale),註定會隨著AI系統的進步而變得更加可靠。這項發現迫使整個領域必須認真思考,當我們建造出一個能夠以其有限方式審視自身的機器時,這究竟意味著什麼深遠的影響。

來源

  • Estadão

  • Axios

发现错误或不准确的地方吗?

我们会尽快处理您的评论。