DeepSeek Model 1代码曝光：继R1后的下一代旗舰V4解析

type

status

date

slug

summary

核心架构演进：回归512维度的标准化

在深入分析FlashMLA库的代码变更（Diff）后，我们发现了一个显著的架构调整。在csrc/api/common.h的宏定义中，Model 1的头部维度（head_dim）配置发生了关键变化。

相比于DeepSeek-V3.2（V32）沿用的576维配置（基于128维RoPE + 448维Latent的非对称MLA设计），Model 1明确切换回了512维的标准配置。这一改动并非倒退，而是一种深思熟虑的“标准化”回归。

这种维度的调整很可能是为了更好地与硬件算力对齐，特别是为了优化Latent压缩比例，从而在保持模型性能的同时，最大化计算效率。对于关注AGI底层架构的研究者来说，这意味着DeepSeek正在重新审视模型的基础单元设计，力求在通用性与专用性之间找到更完美的平衡。

全面适配Blackwell架构：面向未来的算力优化

Model 1的代码库中透露出的另一个重磅信息，是其对NVIDIA下一代Blackwell（SM100）架构的全面支持。这表明DeepSeek的新模型是为未来的顶级算力平台量身定制的。

代码中新增了FMHACutlassSM100FwdRun接口，直接指向Blackwell架构的核心指令集优化。同时，README文档中也明确提到，在B200 GPU上运行需要CUDA 12.9版本。

从性能数据来看，这种优化效果惊人。在尚未完全优化的Sparse MLA算子测试中，B200上的性能已达到350 TFlops；而在H800（SM90a）上，Dense MLA的计算吞吐量更是高达660 TFlops。这种对前沿硬件的极致压榨，正是顶级人工智能公司技术实力的体现，也预示着Model 1将拥有无与伦比的推理速度。

引入Token-level Sparse MLA：稀疏化推理的突破

Model 1相比于V3系列，最显著的算子演进在于引入了“Token-level Sparse MLA”。代码测试脚本中同时出现了针对稀疏（Sparse）和稠密（Dense）解码的测试文件，揭示了混合精度的处理策略。

具体而言，Sparse算子在存储KV Cache时使用FP8格式，但在进行矩阵乘法计算时则切换回bfloat16以保证精度。这种设计思路非常清晰：在处理极长上下文的场景下，通过“稀疏化推理”大幅降低显存压力并提升速度。

对于LLM应用开发者而言，这意味着未来的模型将能够更低成本地处理超长文档和复杂对话，进一步降低了AI变现和落地的门槛。

新机制：VVPA与Engram的神秘面纱

除了算子层面的优化，Model 1还引入了两个引人注目的新特性：VVPA（数值向量位置感知）和Engram机制。

VVPA (Value Vector Position Awareness)：这被认为是解决传统MLA架构在长文本处理中位置信息衰减问题的关键技术。通过增强位置感知，模型在处理长篇幅内容时的逻辑连贯性和记忆能力将得到显著提升。

Engram机制：虽然具体细节尚不完全明朗，但社区普遍认为这是DeepSeek在分布式存储或KV压缩上的新突破。它将配合Model 1的高吞吐需求，为大规模并发访问提供支持。

这些新机制的加入，佐证了Model 1不仅仅是一个版本补丁，而是一个采用了全新架构参数的独立分支。

结论：DeepSeek-V4已在路上？

综合代码库中的种种迹象——独立的DISPATCHMODELTYPE逻辑、与V3.2并列的地位、以及针对下一代硬件的深度优化，我们有理由相信，Model 1正是DeepSeek下一代旗舰模型（DeepSeek-V4）的内部代号或首个工程版本。

从R1的惊艳亮相到如今Model 1的悄然现身，DeepSeek展示了其在AI新闻领域的持续影响力。对于整个行业而言，这预示着新一轮的“模型军备竞赛”即将打响。无论是对于开发者还是企业用户，密切关注这一进展，及时掌握Prompt工程和模型部署的新技术，将是在AI时代保持竞争力的关键。