OpenAI透過稀疏模型研究,為理解人工智慧開闢新道路

作者: Veronika Radoslavskaya

大型語言模型(LLM)作為現代人工智慧的核心,其複雜的神經網路結構長期以來一直被視為難以捉摸的「黑箱」。即使是模型的創建者,也面臨著巨大的挑戰:儘管我們見證了LLM令人印象深刻的成果,但它們究竟是如何得出這些結論的,始終是個謎團。最近,OpenAI發布的一份研究報告,標誌著在模型可解釋性領域取得了重大突破,成功展示了一種新型的透明實驗模型。

這項研究的核心聚焦於小型「僅解碼器」(decoder-only)架構的轉換器模型,這些模型專門使用Python程式碼進行訓練。必須強調的是,這些模型並非設計用於廣泛的公眾應用;它們是為科學分析目的而創建的專業工具。研究中的關鍵創新是一種被稱為「權重稀疏化」(weight-sparsing)的方法。該技術強制性地限制了模型內部連接的使用,將其中超過99.9%的連接歸零。

這種強制性的稀疏化帶來了驚人的效果。在標準的、密集的模型中,執行單一功能(例如識別程式錯誤)需要啟動一個廣泛且錯綜複雜的連接網路。然而,在新的稀疏化模型中,相同的功能被隔離在一個獨立、微小且易於理解的「迴路」(circuit)之中。

科學家們發現,這些被隔離的迴路比同類型的密集模型中的迴路小了約16倍。這使得研究人員能夠精確地定位人工智慧行為背後的機制,對於「機械可解釋性」(mechanistic interpretability)——即理解人工智慧思維過程的科學——而言,這無疑是向前邁出的巨大一步。

這項發現對於人工智慧的安全性和信任度具有深遠的影響。如果惡意行為,例如生成帶有漏洞的程式碼,可以追溯到一個具體且獨立的迴路,那麼理論上就可以對其實施「燒蝕」(ablate)或外科手術式的移除。與在模型建構完成後才應用外部限制(例如護欄guardrails)相比,這種方法提供了一種更精確、更根本的安全控制手段。

然而,我們必須理解,這些稀疏化模型並不會取代當前強大的LLM。它們是刻意受限的,並且相對於其較小的規模而言,訓練成本極高且效率低下。它們真正的價值在於充當「模型生物」(model organisms)——類似於生物學中用於理解基本原理的簡單系統。這項研究為未來的發展奠定了至關重要的基礎。人們希望,未來能夠建立「橋樑」,將這些簡單、易懂的迴路,應用於解讀那些正在改變我們世界的龐大、複雜且密集的模型。

发现错误或不准确的地方吗?

我们会尽快处理您的评论。

OpenAI透過稀疏模型研究,為理解人工智慧開闢新道路 | Gaya One