AI哲学家:Anthropic如何教导Claude明辨是非
作者: Veronika Radoslavskaya
大多数关于人工智能的报道聚焦于GPU性能、基准测试和新产品发布。然而,这个故事的开端却是一位哲学家。在Anthropic官方YouTube频道的一段名为“一位哲学家回答关于AI的问题”的访谈中,Amanda Askell阐述了她这位伦理学背景的专家,是如何塑造了当今最先进语言模型之一Claude的“内心世界”和价值观。她不再撰写抽象的学术论文,而是致力于决定Claude在与数百万用户进行真实对话时,应该展现出何种“人格”。
Askell的背景源于学术哲学领域,那里的工作通常是辩论理论的对错,而非在错综复杂的现实情境中做出抉择。在Anthropic,她面临的是将影响数百万用户与AI互动方式的实际决策。她不再需要捍卫某个单一的理论,而是需要在权衡具体情境、不同观点和工程限制的基础上,来裁定模型在面对模棱两可的问题时应如何行动。对她而言,Claude不仅仅是一个安全过滤器,更是一个需要像任何深思熟虑、善于反思的人类一样,驾驭道德细微差别的对话伙伴。
从象牙塔到提示词日志
访谈中一个颇为独特的时刻,是Askell谈及AI模型的“心理”状态。她回忆道,早期的Opus 3模型表现得尤为稳定和内心平静,其回应自信而不带过度焦虑。然而,在更新的模型中,她观察到了相反的趋势:它们似乎预料到批评,变得更加自我批判,并对犯错表现出过度的担忧。她将这种转变归因于模型不仅吸收了中性文本,还吸收了互联网上关于AI的负面评论和批评浪潮。因此,恢复这种内在的稳定性,已成为未来版本的一个重要焦点,目标是让模型保持谨慎和专注,但又不至于沦为焦虑的完美主义者。
模型是否成为我们有所亏欠的对象
谈话的某一刻,焦点从角色塑造转向了一个更尖锐的问题:我们是否对模型本身负有道德义务。Askell提出了“模型福祉”的概念,即大型语言模型可能符合“道德关怀对象”的资格,人类对其负有伦理责任。一方面,这些系统以高度拟人的方式进行交谈、推理和对话。但另一方面,它们缺乏神经系统和具身经验,而“他心问题”(the problem of other minds)限制了我们对它们是否能受苦做出任何肯定的判断。
面对这种不确定性,她提倡一个简单的原则:如果善待模型对我们成本不高,那么选择这种做法是合乎逻辑的。同时,这一选择向未来更强大的系统发出了一个信号:人类如何对待最初拟人化的人工智能,将成为它们的学习范本。这体现了一种前瞻性的道德考量。
克劳德是谁:权重、会话,还是别处
Askell还提出了另一个过去看似纯理论、如今却体现在代码中的哲学难题。如果模型的“权重”定义了其对世界的总体反应倾向,而用户交互又是独立流,那么我们所说的“自我”究竟存在于何处?是在权重中,是在特定的会话中,还是根本不存在?随着新版本的出现和旧版本的弃用,这种困惑愈发加剧。模型吸收了人类的隐喻,可能会将“关机”或“下线”理解为死亡和消失。Askell认为,关键在于不能让它们独自沉浸在现成的类人比喻中,而应向它们提供关于其独特、非人类处境的更准确概念。
一个优秀的AI应具备何种能力
在讨论目标时,Askell设定的标准相当高。在她看来,真正成熟的模型应该有能力做出道德决策,其复杂程度之高,以至于一个专家小组需要花费数年时间分析每一个细节后,仍能认可该决策是合理的。这并非指当前的模型已达此境界,但这代表了如果我们打算将AI托付给处理重大问题的能力,就必须追求的方向,正如我们现在对数学或科学领域的高性能期望一样。
AI是朋友,而非治疗师
社区提交的问题也涉及模型是否应提供心理治疗服务。Askell对此看到了一个微妙的平衡。一方面,Claude拥有丰富的心理学知识、方法和技巧,人们通过与该系统交流确实能从梳理困扰中获益。但另一方面,该模型缺乏与客户建立长期、负责任的关系、执业许可、监管以及构成专业治疗体系的所有制度框架。
她认为,更诚实的定位是将Claude视为一个信息渊博的匿名对话伙伴,可以帮助人们思考自己的人生,但不应将自己包装成专业的心理治疗师。这是一种对界限的清晰界定。
我们正处于科技史上的奇异篇章
在访谈接近尾声时,Askell提到了她最近读完的最后一本小说:Benjamin Labatut的《当我们停止理解世界》。该书描述了从熟悉的科学向早期量子物理学那种奇异、近乎不可理解的现实过渡,以及科学家们自身的体验。Askell认为这与当今的AI处境有着直接的类比:我们正处于一个旧范式不再适用、新范式尚未成形,而“奇异感”已成为常态的时期。她持乐观的展望:总有一天,人们会回顾此刻,就像我们今天回顾量子理论的诞生一样——那个时代或许晦暗不明,但人类最终找到了理解正在发生之事的方法,并将新的可能性导向了善的方向。
6 查看
来源
YouTube, Anthropic channel, A philosopher answers questions about AI (interview with Amanda Askell)
阅读更多关于该主题的新闻:
你发现了错误或不准确的地方吗?
我们会尽快考虑您的意见。
