OpenAI通过新型稀疏模型研究探索理解人工智能的路径
作者: Veronika Radoslavskaya
长期以来,作为现代人工智能核心的复杂神经网络——大型语言模型(LLM)的内部运作机制,一直被视为一个难以穿透的“黑箱”。尽管我们目睹了这些模型所展现出的惊人能力和成果,但它们究竟是如何得出结论的,对于包括模型设计者在内的所有人来说,始终是一个未解之谜。最近,OpenAI发布了一份具有里程碑意义的研究报告,成功展示了一种新型的透明实验模型,标志着在模型可解释性领域取得了重大进展。
这项研究的核心聚焦于小型“仅解码器”(decoder-only)架构的Transformer模型。值得注意的是,这些特定的模型专门使用Python代码进行训练。它们并非设计用于广泛的公众应用,而是作为科学分析的专业工具。研究中的关键技术创新被称为“权重稀疏化”(weight-sparsing)。该方法通过强制手段限制模型的内部连接,使其超过99.9%的连接权重被归零。
这种强制性的稀疏化带来了惊人的效果。在一个标准的、连接密集的模型中,执行某项功能(例如识别程序错误)需要激活一个广泛且错综复杂的连接网络。然而,在新的稀疏模型中,相同的功能被隔离并集中到一个独立、微小且易于理解的“电路”之中。科学家们发现,这些功能电路的规模比同类密集模型中的电路小了约16倍。这一发现使得研究人员能够精确地定位驱动AI行为的底层机制,从而在“机械可解释性”(mechanistic interpretability,即理解人工智能思维过程的科学)方面迈出了巨大的一步。
这一发现对于提升人工智能的安全性与信任度具有深远的影响。试想,如果某些恶意行为,例如生成带有漏洞的程序代码,能够被追溯到一个具体且隔离的功能电路,理论上就可以对其进行“消融”(ablate)或外科手术式的移除。与在模型构建完成后简单地添加外部限制措施(guardrails)相比,这种方法提供了一种更为精确和根本的安全控制手段,从源头上保障了系统的可靠性。
然而,必须明确的是,稀疏模型并不会取代当前主流的强大LLM。它们是刻意被限制的,并且相对于其较小的规模而言,训练成本极高且效率低下。它们的真正价值在于充当“模型生物”(model organisms)——类似于生物学中用于理解基本生命原理的简单系统。这项研究奠定了一个至关重要的基础。研究人员希望未来能够搭建起一座“桥梁”,将这些简单、可理解的电路知识,扩展应用于解读那些正在改变我们世界的、庞大、复杂且连接密集的模型。
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。
