Anthropic 发布自然语言自动编码器以解码 AI 模型推理,并开源代码
2026-05-08 18:51:24
Anthropic 最近发布了自然语言自动编码器(Natural Language Autoencoders,NLA),这是一种将模型内部激活转换为人类可读文本的工具,并已在 GitHub 上开源了代码和模型权重。不同于现有工具(如稀疏自动编码器,Sparse Autoencoders)会输出难以理解的特征,NLA 通过双模型框架直接生成自然语言描述:一个模型将激活转换为文本,另一个模型则尝试从文本重建激活,通过强化学习迭代提升准确性。
在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!