Anthropic 发布自然语言自动编码器以解码 AI 模型推理,并开源代码
Anthropic 最近发布了自然语言自动编码器(Natural Language Autoencoders,NLA),这是一种将模型内部激活转换为人类可读文本的工具,并已在 GitHub 上开源了代码和模型权重。不同于现有工具(如稀疏自动编码器,Sparse Autoencoders)会输出难以理解的特征,NLA 通过双模型框架直接生成自然语言描述:一个模型将激活转换为文本,另一个模型则尝试从文本重建激活,通过强化学习迭代提升准确性。