DeepSeek 于 4 月 30 日推出视觉基础原语方法,以增强多模态推理
2026-04-30 19:10:35
根据 DeepSeek 的技术报告,4 月 30 日,该公司推出 Visual Primitives,这是一种将诸如点和边界框等基础视觉单元嵌入推理链的方法,以解决多模态任务中的 Reference Gap 问题。该方法通过 KV 缓存压缩来减少图像 token 的消耗。
在计数与空间推理基准测试中,该方法在选定维度上与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 的表现相当。DeepSeek 表示,它将开源基准测试和数据集的部分内容,模型权重将在完成集成后发布。
声明:文章不代表币小二观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险自担!