DeepSeek多模态新范式：视觉原语重塑AI思考

type

status

date

slug

summary

告别“看清”不“想清”：DeepSeek如何定义“指代鸿沟”

现有的多模态大模型在处理复杂图像时，常常面临一个尴尬的困境：它们能够“看见”图像中的对象，但却难以在推理过程中精确地“指代”或“定位”它们。例如，当被要求计算一张密集人群照片中有多少人时，模型可能数错；当被要求分析复杂电路图上元件的相对位置时，回答可能含糊不清甚至前后矛盾。这并非模型视觉感知能力不足，而是其在“思考”过程中，无法稳定地锁定和指代特定的视觉元素。DeepSeek 将这一问题精确地命名为“指代鸿沟”（Reference Gap）。

学术界此前尝试通过提高图像分辨率、动态分块等方式来解决“感知鸿沟”（Perception Gap），即让模型“看得更清楚”。然而，DeepSeek 的研究指出，感知能力的增强并不能直接等同于精确的指代能力。“看见”是基础，但“说清楚在说哪个”才是推理的关键。在信息密集的场景中，自然语言描述（如“左边那个大的”、“靠近中央的红色物体”）天然带有模糊性，容易导致模型在生成“思维链”（CoT）时注意力漂移，最终得出错误结论。DeepSeek 的这项工作，正是要从根本上解决这一“指代”层面的核心问题。

核心创新：将坐标“锚定”AI的思考过程

DeepSeek 的“Thinking with Visual Primitives”范式，其最核心的创新在于将点坐标（<|point|>）和边界框（<|box|>）这些几何信息，从单纯的输出结果，转变为AI进行推理时的“思维单元”或“锚点”。这是一种颠覆性的思路：模型在推理过程中，每当提及一个视觉对象，都会同步输出其精确的坐标或边界框信息。

这就像人类在描述复杂场景时，会用手指逐一点向目标，从而消除歧义。坐标和边界框不再是事后标注，而是贯穿整个推理过程的“活工具”。它们作为“锚点”，将模型的逻辑链条牢牢地“钉”在图像的物理坐标上，极大地防止了推理过程中的注意力漂移和模糊性。这种机制赋予了模型强大的“指代”能力，使其能够精确区分、锁定和追踪图像中的每一个关键元素，无论场景多么密集复杂。

极致压缩与高效推理：7056倍的视觉信息优化

为了实现高效且精确的视觉指代，DeepSeek 在模型架构和训练策略上进行了深度优化，尤其在视觉信息的压缩方面取得了显著成就。该模型基于DeepSeek V4-Flash（一个284B参数、13B激活的MoE模型）作为语言主干，并结合了自研的ViT（视觉Transformer），支持任意分辨率输入。

其关键的视觉压缩流程如下：一张图片首先通过ViT生成2916个图像块token，接着经过3x3的空间压缩，合并为324个token输入语言模型。更重要的是，模型内置的“压缩稀疏注意力”（Compressed Sparse Attention, CSA）机制，能够将KV缓存进一步压缩4倍，最终仅剩下81个视觉KV条目。从原始像素到最终缓存条目，整体压缩比高达7056倍。这意味着，对于一张800x800的图片，该模型只需约90个KV缓存条目，而同类模型如Claude Sonnet 4.6需要约870个，Gemini-3-Flash则高达1100个。DeepSeek认为，强大的精确空间指代能力，可以在有限的视觉token条件下，有效弥补信息量的不足，实现“无需看更多，但要指更准”的高效推理。

精心设计的数据与训练：为“思考”量身定制

创新的训练数据设计是DeepSeek范式成功的另一关键维度。团队从海量目标检测数据集中筛选出约3.17万个高质量数据源，生成超过4000万条训练样本。特别针对“思考与视觉原语”任务，设计了四类高度定制化的冷启动数据：

计数任务：区分粗粒度（如“图里有多少人”）和细粒度（如“穿蓝色衣服的人有几个”）。前者训练模型“批量锁定”能力，后者则训练“逐一扫描、逐一核对”的精细化策略。

空间推理与视觉问答：利用GQA和CLEVR数据集生成多跳推理样本，强制模型在每一步推理时都用边界框锁定涉及的对象。

迷宫导航：生成46万条样本，涵盖不同拓扑结构的迷宫，并包含“表面可解但实际无解”的鲁棒性训练。模型需用点坐标记录探索轨迹，并标记已排除路径。

路径追踪：生成12.5万条样本，处理多条交叉的贝塞尔曲线，要求模型追踪指定起点。关键在于训练模型解决“交叉歧义”，即使在曲线颜色完全相同的情况下也能正确辨别。

在训练流程上，DeepSeek采用了“先分家，再合体”的策略：首先，分别训练边界框专家模型（FTwG）和点坐标专家模型（FTwP），避免数据量少时互相干扰。随后，对两个专家模型进行强化学习（RL），采用GRPO算法，并设计了包含格式、质量、精度等三路并行的精细化奖励机制。最后，通过统一强化微调（Unified RFT）和在线策略蒸馏（On-Policy Distillation），得到最终的统一模型F。

实验验证：在“最难的题目”上超越前沿模型

DeepSeek 在11个基准测试上进行了全面评测，并与Gemini-3-Flash、GPT-4.5、Claude Sonnet 4.6等主流模型进行了API层面的对比。结果显示，DeepSeek的“Thinking with Visual Primitives”模型在多个关键任务上展现出显著优势。

计数任务：在Pixmo-Count（精确匹配）上，模型达到89.2%，大幅领先GPT-4.5（76.6%）和Claude Sonnet 4.6（68.7%）。在细粒度计数上，也以88.7%超越了Qwen3-VL-235B。

空间推理：在MIHBench和SpatialMQA等基准上，模型表现与头部模型持平或略有超越，均排名第一。

拓扑推理：这是最能体现模型进步的领域。在迷宫导航（DSMazeNavigation）任务上，该模型得分66.9%，而GPT-4.5为50.6%，Gemini-3-Flash为49.4%，Claude Sonnet 4.6为48.9%。模型提升了约17个百分点。在路径追踪（DSPathTracing）上，差距同样悬殊，模型达到56.7%，远超GPT-4.5（46.5%）和Gemini-3-Flash（41.4%）。

论文坦承，目前所有前沿模型在拓扑推理任务上均表现欠佳，显示出多模态大模型在推理能力上仍有巨大提升空间。DeepSeek的这项工作，无疑为解决这一难题开辟了新路径。

局限性与未来：一种新的“思考姿势”

尽管取得了显著成就，DeepSeek 的论文也诚实地指出了当前模型的局限性：

触发机制：当前模型需要明确的“触发词”才会激活视觉原语机制，尚不能自主判断何时应使用“手指”进行精确指代。

分辨率限制：在极细粒度的视觉场景中，视觉原语的位置精准度受输入分辨率影响，偶尔不够完美。

泛化能力：用点坐标解决复杂拓扑推理问题时，跨场景的泛化能力仍有待提高。

然而，这些局限性并不妨碍“Thinking with Visual Primitives”的重大意义。它提出的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”——在此之前并非主流叙事。DeepSeek 团队另辟蹊径，没有仅仅追求更大的模型或更多的数据，而是致力于让模型“指更准”，用空间锚点稳定逻辑链。

从这个角度看，“Thinking with Visual Primitives”更像是为多模态推理增添了一种全新的“思考姿势”——一种人类在处理复杂视觉任务时本能就会使用的、但AI此前一直缺失的姿势：用手指着想。这项技术不仅是AI新闻中的一个重要里程碑，也预示着未来大模型在理解和推理能力上将迈向更深层次的智能化。

想了解更多AI前沿资讯，请持续关注aigc.bar，获取最新AI新闻、大模型动态及人工智能发展趋势。