据报道,NVIDIA 和 MIT 的研究人员发布了 Lightning OPD(Offline On-Policy Distillation),这是一种用于大语言模型的新后训练框架,可消除在训练期间保持教师模型运行的需求。通过在离线环境中预先计算教师模型的对数概率,该框架将训练效率提升 4 倍,同时释放所有 GPU 资源用于学生模型训练。

在 8 张 NVIDIA H100 GPU 上的测试中,Lightning OPD 成功蒸馏出 Qwen3-30B-A3B-Base(一个 300 亿参数的 MoE 模型),并在 AIME 2024 基准测试中取得 71.0 分;而标准 OPD 在相同硬件上则会内存耗尽。对于较小的 Qwen3-8B 模型,该框架仅需 30 GPU 小时即可达到 69.9 分。