DeepSeek多模态新范式:视觉原语重塑AI思考

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
人工智能的边界正以前所未有的速度拓展,其中,多模态大模型在理解和生成图像、文本等信息方面展现出惊人潜力。然而,在追求“看清”图像细节的同时,一个深层挑战长期困扰着研究者:模型能否真正“想清楚”图像中的内容,并进行精确的推理?近日,DeepSeek AI 团队宣布了一项开创性的多模态技术范式——“Thinking with Visual Primitives”(以视觉原语思考),旨在解决当前多模态模型普遍存在的“指代鸿沟”(Reference Gap),为人工智能的认知推理能力带来了革命性的突破。这项技术不仅在多个基准测试中取得了领先成绩,更重要的是,它提供了一种全新的AI“思考姿势”,有望重塑我们对多模态AI能力的认知。

告别“看清”不“想清”:DeepSeek如何定义“指代鸿沟”

现有的多模态大模型在处理复杂图像时,常常面临一个尴尬的困境:它们能够“看见”图像中的对象,但却难以在推理过程中精确地“指代”或“定位”它们。例如,当被要求计算一张密集人群照片中有多少人时,模型可能数错;当被要求分析复杂电路图上元件的相对位置时,回答可能含糊不清甚至前后矛盾。这并非模型视觉感知能力不足,而是其在“思考”过程中,无法稳定地锁定和指代特定的视觉元素。DeepSeek 将这一问题精确地命名为“指代鸿沟”(Reference Gap)。
学术界此前尝试通过提高图像分辨率、动态分块等方式来解决“感知鸿沟”(Perception Gap),即让模型“看得更清楚”。然而,DeepSeek 的研究指出,感知能力的增强并不能直接等同于精确的指代能力。“看见”是基础,但“说清楚在说哪个”才是推理的关键。在信息密集的场景中,自然语言描述(如“左边那个大的”、“靠近中央的红色物体”)天然带有模糊性,容易导致模型在生成“思维链”(CoT)时注意力漂移,最终得出错误结论。DeepSeek 的这项工作,正是要从根本上解决这一“指代”层面的核心问题。

核心创新:将坐标“锚定”AI的思考过程

DeepSeek 的“Thinking with Visual Primitives”范式,其最核心的创新在于将点坐标(<|point|>)边界框(<|box|>)这些几何信息,从单纯的输出结果,转变为AI进行推理时的“思维单元”或“锚点”。这是一种颠覆性的思路:模型在推理过程中,每当提及一个视觉对象,都会同步输出其精确的坐标或边界框信息。
这就像人类在描述复杂场景时,会用手指逐一点向目标,从而消除歧义。坐标和边界框不再是事后标注,而是贯穿整个推理过程的“活工具”。它们作为“锚点”,将模型的逻辑链条牢牢地“钉”在图像的物理坐标上,极大地防止了推理过程中的注意力漂移和模糊性。这种机制赋予了模型强大的“指代”能力,使其能够精确区分、锁定和追踪图像中的每一个关键元素,无论场景多么密集复杂。

极致压缩与高效推理:7056倍的视觉信息优化

为了实现高效且精确的视觉指代,DeepSeek 在模型架构和训练策略上进行了深度优化,尤其在视觉信息的压缩方面取得了显著成就。该模型基于DeepSeek V4-Flash(一个284B参数、13B激活的MoE模型)作为语言主干,并结合了自研的ViT(视觉Transformer),支持任意分辨率输入。
其关键的视觉压缩流程如下:一张图片首先通过ViT生成2916个图像块token,接着经过3x3的空间压缩,合并为324个token输入语言模型。更重要的是,模型内置的“压缩稀疏注意力”(Compressed Sparse Attention, CSA)机制,能够将KV缓存进一步压缩4倍,最终仅剩下81个视觉KV条目。从原始像素到最终缓存条目,整体压缩比高达7056倍。这意味着,对于一张800x800的图片,该模型只需约90个KV缓存条目,而同类模型如Claude Sonnet 4.6需要约870个,Gemini-3-Flash则高达1100个。DeepSeek认为,强大的精确空间指代能力,可以在有限的视觉token条件下,有效弥补信息量的不足,实现“无需看更多,但要指更准”的高效推理。

精心设计的数据与训练:为“思考”量身定制

创新的训练数据设计是DeepSeek范式成功的另一关键维度。团队从海量目标检测数据集中筛选出约3.17万个高质量数据源,生成超过4000万条训练样本。特别针对“思考与视觉原语”任务,设计了四类高度定制化的冷启动数据:
  1. 计数任务:区分粗粒度(如“图里有多少人”)和细粒度(如“穿蓝色衣服的人有几个”)。前者训练模型“批量锁定”能力,后者则训练“逐一扫描、逐一核对”的精细化策略。
  1. 空间推理与视觉问答:利用GQA和CLEVR数据集生成多跳推理样本,强制模型在每一步推理时都用边界框锁定涉及的对象。
  1. 迷宫导航:生成46万条样本,涵盖不同拓扑结构的迷宫,并包含“表面可解但实际无解”的鲁棒性训练。模型需用点坐标记录探索轨迹,并标记已排除路径。
  1. 路径追踪:生成12.5万条样本,处理多条交叉的贝塞尔曲线,要求模型追踪指定起点。关键在于训练模型解决“交叉歧义”,即使在曲线颜色完全相同的情况下也能正确辨别。
在训练流程上,DeepSeek采用了“先分家,再合体”的策略:首先,分别训练边界框专家模型(FTwG)和点坐标专家模型(FTwP),避免数据量少时互相干扰。随后,对两个专家模型进行强化学习(RL),采用GRPO算法,并设计了包含格式、质量、精度等三路并行的精细化奖励机制。最后,通过统一强化微调(Unified RFT)和在线策略蒸馏(On-Policy Distillation),得到最终的统一模型F。

实验验证:在“最难的题目”上超越前沿模型

DeepSeek 在11个基准测试上进行了全面评测,并与Gemini-3-Flash、GPT-4.5、Claude Sonnet 4.6等主流模型进行了API层面的对比。结果显示,DeepSeek的“Thinking with Visual Primitives”模型在多个关键任务上展现出显著优势。
  • 计数任务:在Pixmo-Count(精确匹配)上,模型达到89.2%,大幅领先GPT-4.5(76.6%)和Claude Sonnet 4.6(68.7%)。在细粒度计数上,也以88.7%超越了Qwen3-VL-235B。
  • 空间推理:在MIHBench和SpatialMQA等基准上,模型表现与头部模型持平或略有超越,均排名第一。
  • 拓扑推理:这是最能体现模型进步的领域。在迷宫导航(DSMazeNavigation)任务上,该模型得分66.9%,而GPT-4.5为50.6%,Gemini-3-Flash为49.4%,Claude Sonnet 4.6为48.9%。模型提升了约17个百分点。在路径追踪(DSPathTracing)上,差距同样悬殊,模型达到56.7%,远超GPT-4.5(46.5%)和Gemini-3-Flash(41.4%)。
论文坦承,目前所有前沿模型在拓扑推理任务上均表现欠佳,显示出多模态大模型在推理能力上仍有巨大提升空间。DeepSeek的这项工作,无疑为解决这一难题开辟了新路径。

局限性与未来:一种新的“思考姿势”

尽管取得了显著成就,DeepSeek 的论文也诚实地指出了当前模型的局限性:
  • 触发机制:当前模型需要明确的“触发词”才会激活视觉原语机制,尚不能自主判断何时应使用“手指”进行精确指代。
  • 分辨率限制:在极细粒度的视觉场景中,视觉原语的位置精准度受输入分辨率影响,偶尔不够完美。
  • 泛化能力:用点坐标解决复杂拓扑推理问题时,跨场景的泛化能力仍有待提高。
然而,这些局限性并不妨碍“Thinking with Visual Primitives”的重大意义。它提出的问题——“推理过程中语言指代的歧义性是多模态模型的根本瓶颈之一”——在此之前并非主流叙事。DeepSeek 团队另辟蹊径,没有仅仅追求更大的模型或更多的数据,而是致力于让模型“指更准”,用空间锚点稳定逻辑链。
从这个角度看,“Thinking with Visual Primitives”更像是为多模态推理增添了一种全新的“思考姿势”——一种人类在处理复杂视觉任务时本能就会使用的、但AI此前一直缺失的姿势:用手指着想。这项技术不仅是AI新闻中的一个重要里程碑,也预示着未来大模型在理解和推理能力上将迈向更深层次的智能化。
想了解更多AI前沿资讯,请持续关注aigc.bar,获取最新AI新闻、大模型动态及人工智能发展趋势。
Loading...

没有找到文章