视频模型真在推理,还是模仿?港中文揭秘Chain-of-Frame真相

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:从Sora到Veo,视频AI的“思考”幻觉

近年来,以Google的Veo和OpenAI的Sora为代表的视频生成模型,凭借其创造出高度逼真、时序连贯的动态画面的能力,震惊了整个AI领域。这些模型的惊艳表现,似乎暗示着它们内部已经构建了对物理世界的深刻理解。一个更引人入胜的概念随之浮出水面——Chain-of-Frame (CoF),即“帧链推理”。
这个概念与大型语言模型(LLM)中的“思维链”(Chain-of-Thought, CoT)遥相呼应,意指视频模型通过逐帧生成画面的方式,进行一种视觉上的逻辑推演。但这引出了一个核心问题:这种“推理”是真实存在的、具备零样本(Zero-Shot)能力的智能涌现,还是仅仅是模型对训练数据中海量模式的巧妙“表演”和模仿?为了拨开这层迷雾,来自香港中文大学、北京大学等机构的研究团队,对当前顶尖的视频模型(如Veo 3)进行了系统性的剖析,并推出了首个专用于评估视频模型推理能力的基准——MME-CoF。

什么是“帧链推理”(Chain-of-Frame)?

“帧链推理”(CoF)可以被看作是语言模型“思维链”(CoT)在视觉领域的延伸和类比。
  • 思维链 (CoT):通过一步步生成文本,展示解决问题的逻辑路径和中间步骤,让模型的思考过程透明化。
  • 帧链推理 (CoF):通过连续生成视频帧,让一个场景或问题在视觉上逐步演化,从而体现出模型对问题解决方案的推演过程。
例如,当你要求模型生成“一个球从斜坡滚下并撞击积木”的视频时,一个具备CoF能力的模型应该能通过连续的画面,准确展示球的加速、碰撞的动量传递以及积木倒塌的物理过程。这不仅仅是画面的堆砌,更是对因果关系和物理规律的视觉化呈现。然而,这种能力的真实性正是当前AI研究的前沿焦点。

12个维度深度拷问:视频模型的真实能力边界

为了全面、系统地评估视频模型的推理能力,研究团队设计了涵盖12个维度的严苛测试任务,对Veo 3等模型进行了深入的实证分析。这些测试揭示了模型在“看起来对”和“逻辑上对”之间的巨大鸿沟。

1. 空间与几何推理:看似合理,实则脆弱

  • 真实世界空间推理:在简单的视角切换中,模型能维持基本的空间布局。但当面对复杂的、多视角的场景时,便会暴露出空间错位、方向混乱等问题,无法维持一个稳定的全局坐标系。
  • 3D/2D几何推理:模型可以完成简单的几何变换,比如将一个平面图形折叠成简单的3D形状。然而,一旦任务变得复杂,如多步折叠或精确的点线连接,模型便会“露馅”。它更倾向于生成视觉上“好看”的图形,而不是严格遵守几何约束,经常出现结构崩塌、线条错乱等问题。这表明其缺乏真正的几何约束意识。

2. 物理与因果推理:模仿表象,而非理解规律

  • 物理推理:这是最能体现模型是否理解世界的维度。测试发现,模型生成的视频虽然在视觉上模拟了物理现象(如重力、碰撞),但并未真正遵循能量守恒、力学等基本物理规律。其表现更像是一种基于海量视频数据的“视觉模仿秀”,而非对物理世界的真实建模。
  • 视觉追踪与计数:在追踪任务中,模型处理长时序的因果链时能力不足,容易“忘记”之前的状态。在动态计数任务中,虽然静态场景表现尚可,但在物体移动或被遮挡时,常出现漏数或重复计数,显示其对物体的“存在”和“同一性”缺乏稳定认知。

3. 其他关键维度:能力与局限并存

除了上述核心领域,研究在其他维度也发现了类似的模式:
  • GUI推理:能模仿点击、拖动等动作,但并不理解这些操作背后的逻辑和目的。
  • 具身推理:能识别物体和动作,但常常无视环境规则,甚至出现“作弊式”的生成(如直接穿墙)。
  • 医学推理:可以放大观察影像细节,但无法保证医学影像的逻辑一致性,容易出现违背解剖学结构的致命错误。
这些发现共同指向一个结论:当前的视频模型在生成视觉上连贯、美观的内容方面能力强大,但在需要严格逻辑、物理和几何约束的推理任务上,其能力非常有限。

结论:强生成 ≠ 强推理,视频AI路在何方?

通过对Veo 3等模型的系统评测和MME-CoF基准的量化分析,研究者们得出了明确的结论:
  1. 尚不具备独立的零样本推理能力:当前视频模型的表现,主要源于对训练数据中模式的记忆和复现,而非基于抽象概念的逻辑推演。它们是在“表演”推理,而非进行真正的推理。
  1. “看起来对”远比“逻辑上对”容易:模型优先保证视觉上的连贯性和合理性,但这种合理性往往经不起深究。其生成的内容是表象的、统计的,而非因果的、逻辑的。
  1. 未来潜力巨大:尽管存在显著局限,但这并不意味着视频模型没有未来。它们强大的视觉生成能力,使其可以作为一种强大的“视觉直觉”模块,与更侧重逻辑推理的符号AI系统或LLM相结合,共同构建更完整、更强大的多模态人工智能体系。
总而言之,从“生成”到“推理”,是视频AI迈向通用视觉智能(General Vision Model)必须跨越的关键鸿沟。这项研究为我们提供了一把精准的尺子,清晰地度量了我们当前所处的位置,也指明了通往真正“会思考”的视觉AI的漫长道路。想要获取更多前沿的AI资讯和深度分析,欢迎访问AI门户网站 AIGC.Bar。
Loading...

没有找到文章