DeepSeek V4 架构已验证:4项预测命中3项,缺少 Engram 模块
2026-04-24 11:24:12
Gate 新闻消息,4月24日——DeepSeek 今天发布了 V4 模型卡,证实了此前通过对昨日发布的 TileKernels 内核库进行分析所做的架构预测 (4月23日)。根据 Beating 的监测,已确认三个核心组件:mHC (Manifold-Constrained Hyper-Connections) 取代字节跳动原始的 HyperConnection,采用带 Top-k 专家路由的 MoE 架构,以及 FP4+FP8 混合精度权重存储。预测的 Engram 条件记忆模块未出现在模型卡中。
模型卡还揭示了 TileKernels 未覆盖的新组件:混合注意力机制 (CSA + HCA) 推动了 V4 的长上下文效率提升,将在 1M 上下文窗口下的推理 FLOPs 降至仅为 V3.2 水平的 27%,并将 KV 缓存降至 10%。训练现在使用 Muon 优化器。
该验证展示了生产级内核实现如何在官方规范发布之前揭示底层模型架构。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!