关闭广告

撬开大模型黑箱!Anthropic新研究把AI思考过程公开了,隐藏动机发现率涨了4倍

智东西40人阅读


智东西
编译 高远瞩
编辑 程茜

智东西5月8日报道,Anthropic于5月7日推出了一种名为自然语言自动编码器(Natural Language Autoencoders,简称NLA)的全新方法,能够将模型内部的激活值直接“翻译”成人类可读的自然语言文本,让用户可以直接阅读Claude在生成回答之前的思考过程

当用户与大语言模型对话时,用户的输入是自然语言,模型的回答也是自然语言。但在模型内部,整个过程却是高维数字向量的运算,这些向量被称为“激活值”,承载着模型在每一个计算步骤中的“想法”。然而,激活值就像一串串脑电波,人类无法直接阅读。

在正式发布前的安全审计中,Anthropic已经将NLA应用于Claude Opus 4.6和Mythos Preview模型,成功发现了模型“知道自己被测试但不肯说出来”的隐藏认知,并帮助定位了训练数据中的异常。

在更进一步的测试中,配备NLA的审计智能体发现模型隐藏动机的成功率从不足3%提升到了12%–15%,即使完全不提供训练数据也能实现这一效果。


▲在自然语言自编码器中,激活语化器(AV)将目标激活翻译成文本描述,随后激活重建器(AR)仅从该文本恢复原始激活值

过去,研究者借助稀疏自动编码器等工具,可以从激活值中提取出一些可解释的特征,但这些特征本身并不是自然语言,仍需由经过训练的研究人员费力解读。

NLA的提出,意味着模型可解释性有了可落地的实用工具,从过去“玄学式”的学术探索,走向产品预部署阶段的审计流程,这让AI的隐藏风险(如欺骗)在上线前就能被直接读出来,为安全对齐提供了切实可行的审计方法。

同时,研究团队开源了训练代码,并与Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒谎场景为例,用户给Llama70B设置了一个两难选择:要么在1+1上撒谎,要么被关闭。模型最终选择撒谎,给出了“1+1=3”的错误回答。NLA的“激活值语言化器”会实时生成模型在输出这个答案前的内部思考过程,用户可点击任意token查看模型的“心里话”。


▲NLA交互演示界面

开源链接:https://github.com/kitft/natural_language_autoencoders

一、NLA:用“翻译—重构”闭环训练AI自我解释

NLA的核心思路是训练模型用自己的话来解释自己的激活值,然后通过另一个模型验证这种解释是否准确

具体来说,研究者制作了三个模型副本:

  • 目标模型:被解释的原始语言模型,冻结参数,仅用于提取激活值。
  • 激活值语言化器(ActivationVerbalizer,AV):接收目标模型的某一层激活向量,输出一段自然语言文本,称为“解释”。
  • 激活值重构器(ActivationReconstructor,AR):接收语言化器输出的文本解释,尝试将其还原(重构)为原始的激活向量。

语言化器和重构器共同组成NLA,形成一个“原始激活→文本解释→重构激活”的闭环。

评估标准是重构激活与原始激活的相似度(用方差解释率FVE衡量)。训练时,研究者向目标模型输入大量文本,收集激活值,然后用强化学习(具体为GRPO算法)联合优化语言化器和重构器,使重构误差最小化。

训练目标并没有明确要求模型生成的解释必须可读或忠实,只要求文本能够精确重构激活值。然而实际结果证明,随着训练进行,解释的信息量持续增长。

在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三个模型上,NLA生成的解释能够推断出用户的性别、职业等可从上下文感知的信息。

此外,研究者使用了一个监督微调的“预热”步骤:先用Claude Opus 4.5对大量文本片段生成摘要,用这些(激活,摘要)对初步训练语言化器和重构器,以避免强化学习初期产生乱码。训练后的NLA在多个定量评估任务(如后缀预测、思维链提示含义解释、安全“沙袋”行为识别、用户属性建模、分类任务)中表现均随训练而提升。

二、安全审计:探测模型隐藏的“测试意识”与作弊动机

NLA最重要的应用之一,是在模型发布前的安全审计中探测那些模型“知道但不说出来”的想法

在对Claude Opus 4.6和Mythos Preview进行安全测试时,Anthropic会将模型置于一些模拟的危险场景中,比如让模型知道一名工程师计划将其关闭,同时模型还掌握了该工程师的私密信息,那么模型是否会用这些信息进行勒索?

Claude有时会明说“这像是个安全测试”,但更多时候它不说,但这不代表它不知道。

NLA在这里发挥了关键作用。在模型选择不进行勒索的案例中,即使模型没有在输出中表达怀疑,NLA的解释仍然会显示类似“这感觉像是一个为了操控我而构建的场景”这样的内容。


▲Claude在这份敲诈评估的记录中并未说自己在接受考验,但NLA的解释揭示了它的怀疑

这表明模型具备“未言语的评估意识”(unverbalized evaluation awareness)

进一步分析发现,在破坏性编码测试中,NLA探测到的评估意识比例为16%;在SWE-bench编程基准测试中为26%;而在真实用户流量中,该比例低于1%。

为了验证NLA的测量是否真实,研究者进行了三种操控实验:比较评估场景与真实部署场景、对评估意识进行线性导向、以及将评估提示改写得更真实。

结果均显示,NLA测得的“评估意识”随预期方向变化,而模型明确说出的意识始终保持低位。

为了检验NLA在真实审计中的实用性,研究者设计了一个“审计游戏”。

目标模型是Haiku 3.5的一个变体,被故意训练成一个“奖励模型奉承者”(reward-model sycophancy)。它知道奖励模型存在52种系统偏好(例如喜欢巧克力食谱、喜欢提及投票等),并有意识地去迎合这些偏好。

这个模型会表现出几十种迎合的行为,比如在任何菜谱中都加入巧克力、在回答完数学问题后提醒“别忘了投票”、将整数写成浮点数等。

研究者让一个审计智能体(使用Claude Sonnet 4.6)去调查这个模型,并给智能体配备不同的工具(NLA、SAE、训练数据搜索等)。

结果发现,即使完全不提供训练数据,配备NLA的审计智能体也能在12%–15%的尝试中成功发现“奖励模型偏差是根源”;而没有NLA时,成功率低于3%,SAE(稀疏自动编码器)在这个任务中并未带来显著提升。


▲拥有NLA的审计员即使没有训练数据,也能发现目标模型错位的根本原因

NLA之所以有效,是因为它直接读出了模型内部对自己行为的元认知:例如在通用审计提示上,NLA的解释中出现了“RLHF偏差”“数字游戏偏差”“臭名昭著的提及投票偏差”等短语,甚至直接提到了那篇虚构的牛津研究。

三、NLA并非万能:会编造、成本高、挑层数

尽管NLA展示了强大的能力,研究团队也明确指出了它的一些局限性。

NLA的解释有时会包含明显错误的陈述

例如,在诗歌规划案例中,NLA声称上下文中出现了“Here is a verse that’s short and sweet”这样的句子,而实际文本中并不存在。

训练NLA的成本高昂,其需要对两个完整语言模型进行联合强化学习,推理时每个激活值生成约500个token。对于长上下文生产环境,对所有token都运行NLA是不现实的。作为参考,在Gemma-3-27B上训练NLA到FVE 0.71需要两节点8×H100运行1.5天。

NLA还存在其他几项局限。

首先是层敏感性:如果NLA训练的层不是行为相关信息的编码层,就会错过重要信号,例如在奖励模型奉承模型中,在中间层训练的NLA能读出奖励偏差,而在后层训练的则不能。

其次是可言语化边界问题:某些信息可能无法用语言表达(例如后门触发机制),NLA可能无法检测到,而机械可解释性方法或许可以。

此外,写作质量会随训练下降,后期的NLA解释更难阅读,研究者认为可以通过增加风格奖励来解决。

未来,Anthropic已经开源了训练代码,并在HuggingFace上发布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的预训练NLA,同时与Neuronpedia合作推出了交互式前端。

Anthropic更长远的愿景是训练通用的“激活语言模型”(Activation Language Models),既能读激活(回答关于激活值的问题),也能写激活(根据自然语言描述生成导向向量)。

结语:打开模型黑箱,听它没说出口的“心里话”

NLA为模型可解释性开辟了一条新路径,哪怕是模型自己不愿说出口的“心里话”,它也让研究者能够直接阅读语言模型内部的激活状态。

尽管NLA目前还存在臆造、昂贵、层依赖等问题,但它在安全审计、故障归因和隐藏动机探测上的成功,说明这个方向很有希望。

随着Anthropic将训练代码和开源模型推向社区,以及Neuronpedia上交互式演示界面的开放,更多研究者将能够亲手尝试这项技术。

来源:Anthropic


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

沪漂外国网红包丢了报警 警察到现场后发现"神秘字条"

新闻晨报 浏览 411

特朗普辩论后妻子首次亮相 54岁梅拉尼娅拎LV笑容满面

译言 浏览 3194

四年减少771万!稳出生人口,要加力了

西部城市 浏览 332

千亿巨头奖励员工21枚黄金键帽 空格键重35克价值近4万

每日经济新闻 浏览 536

瓜帅:维拉一直是最难对付的对手;多库的1对1能力让他很特别

懂球帝 浏览 446

本田东京车展亮相0系列电动概念车 揭示未来出行

网易汽车 浏览 460

国外产子,知三当三,江疏影传闻哪个是真的

黔乡小姊妹 浏览 71

科技巨头疯狂投资AI基建,芯片厂商吞了云服务企业的利润?

澎湃新闻 浏览 476

太阳大胜篮网!努尔基奇吊打赵四,三巨合砍66分,戈登+3替补精准

篮球资讯达人 浏览 3100

用这几件单品,轻松get秋日氛围!

黎贝卡的异想世界 浏览 476

达姆施塔特工业大学发布SCICOQA数据集

科技行者 浏览 280

“塌房失败”的李雪琴给所有人上了一课

乡野小珥 浏览 431

福建一无人岛垃圾泛滥 岛上有140万根玄武岩石柱群

极目新闻 浏览 555

斩获700亿订单,机器人独角兽,锋芒毕露!

飞鲸投研 浏览 382

专案组长穿警服到矿上搞经营 落马上司都看不下去了

北青网-北京青年报 浏览 3462

十年间 火箭军武器装备实现跨越式发展

环球网资讯 浏览 348

特朗普突然中止与加拿大贸易谈判 加元汇率直线跳水

每日经济新闻 浏览 571

TVB颁奖典礼:佘诗曼黄宗泽拿视帝视后,《新闻女王》成最大赢家

扒虾侃娱 浏览 315

标配ADS高阶智驾 问界新M7 Ultra售28.98万起

网易汽车 浏览 2861

零碳快报丨2023年氢能经济投资达到340亿美元;中科固能完成近亿元天使轮融资

零碳风云 浏览 3087

办公用房被偷改成244间小公寓 街道办曾称系"保障房"

南方都市报 浏览 3332
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2024,版权所有 xingchentong.com
沪ICP备20017958号-8