Google 开源 DiffusionGemma 模型:在 H100 上每秒 1000+ 个 Token,速度提升 4 倍
2026-06-11 08:45:38
据 Beating 监测,Google 发布了一个名为 DiffusionGemma 的开源文本生成模型,它使用基于扩散的机制,通过并行块来生成文本,而不是以逐 token 的方式顺序生成。该 26B 参数模型在混合专家架构下,每次前向传递只激活 38 亿参数,实现了本地 GPU 推理 4 倍的速度提升。
在单块 NVIDIA H100 GPU 上,DiffusionGemma 的吞吐量超过每秒 1000 tokens,而消费级 RTX 5090 则超过每秒 700 tokens。经过 4-bit 浮点量化后,该模型所需显存低于 18GB。DiffusionGemma 权重现已在 Hugging Face 开源,并得到 MLX、vLLM、Unsloth 以及 NVIDIA NeMo 的支持。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!