据《The Information》报道,援引内部腾讯备忘录和消息人士称,尽管 Anthropic 明确禁止为因国家安全担忧而向中方企业提供商业服务,腾讯员工在 Hy3(公司最新的大型语言模型)的后训练阶段仍使用了 Anthropic 的 Claude Code。

Hy3 采用 295B 参数的混合专家架构。在 RLHF(来自人类反馈的强化学习)阶段,腾讯员工充当人类评估员,每人的使用量限制在每人数千 token 以内。内部备忘录提供了 Claude Code 的安装指南。腾讯员工使用 Claude Code 生成高质量的参考示例,用于对匿名模型输出进行打分,而不是他们所称的蒸馏。Anthropic 的发言人表示,公司会积极监控蒸馏攻击,但并未直接回应腾讯使用 Claude Code 的情况。