视频世界模型新突破！清华腾讯发布MBench重建AI记忆评测

type

status

date

slug

summary

视频生成下半场：从“视觉合成”走向“世界建模”

当前的视频生成技术已经可以合成视觉上非常震撼的短视频，但在走向长视频生成和功能性的“世界模拟器”时，一个根本性的挑战依然存在：模型必须能够忠实地维持现实世界的视觉特征、语义规则、内在动力学和物理规律，并可靠地支持长时序的预测、推理与交互。

如果缺乏这种能力，随着生成时间的延长或交互的增加，视频往往会出现物体和人物视觉特征突变、场景结构崩塌或因果关系错误等现象。例如，主角转个身衣服颜色就变了，或者镜头移开再移回时，原本存在的建筑物凭空消失。

这种从“视觉合成”向“世界建模”的跨越，本质上需要模型具备强大的“长期记忆能力”，以维持内部世界状态在长时序和复杂交互中的稳定性与一致性。然而，传统的视频评估基准（如 VBench 等）主要侧重于单次短视频生成的视觉质量、运动连贯性或文本对齐，忽略了对世界“持久属性”保留能力的量化。MBench 则是为了填补这一空白而诞生，首次将视频和世界模型在长时序下的记忆能力作为核心观测对象。

MBench三维评测框架：如何科学量化AI的“记忆力”

为了全面评估视频世界模型的记忆能力，MBench 构建了一个包含 1040 个测试案例的系统化框架。该框架将记忆能力解构为三个互补的核心维度，并进一步细分为 12 个可量化的子维度，涵盖了从静态属性到动态因果的全方位记忆要求：

实体一致性 (Entity Consistency)

实体一致性关注模型保留个体参与者持久身份和属性的能力。这包括物体一致性（几何、纹理）和人类一致性（身份特征、外观细节）。简单来说，就是当一个人或物体被遮挡、离开画面再重新进入画面时，它的样子、穿着和特征是否能够保持前后一致，而不是变成另一个完全不同的实体。

环境一致性 (Environment Consistency)

环境一致性衡量模拟场景的稳定性。包括空间一致性（通过极线几何和重投影误差衡量 3D 布局）和渲染一致性（光照与风格的稳定性）。环境一致性考验的是模型对 3D 空间世界的理解能力——当相机移动、旋转再回到原位时，房间的布局、场景的结构是否和之前保持一致；而渲染一致性则衡量视频在光线方向和整体画面风格上是否能保持统一。

因果一致性 (Causal Consistency)

因果一致性衡量模型能否记住事件的因果逻辑，分为自演化和交互。这是最高级的记忆能力。例如，当一个杯子掉在地上碎了，即使相机移开再转回，地上也应该呈现相应的碎片，而不是一个完好无损的杯子；当你通过文本指令要求模型移动一个物体，模型应该准确执行并记住新的位置，即使物体在当前的画面中已经暂时不可见。

规避“静态作弊”：独创的Trigger-Conditioned评分机制

在评估视频模型的记忆能力时，研究团队发现了一个有趣的现象：模型可能会通过“生成静态或保守内容”的方式来规避一致性挑战，从而获得虚高的一致性评分。例如，对于文本条件模型，其生成的视频往往无法真正呈现提示词中要求的复杂镜头运动或物体遮挡；对于动作驱动的世界模型，也可能存在生成的视频无法正确响应相机运动的现象。

为了解决这一痛点，MBench 引入了触发条件评分（Trigger-Conditioned Scoring）机制，将最终得分（M-Score）拆解为两个部分：

触发覆盖率 (Trigger Coverage, C_trig)：验证模型是否成功执行了记忆挑战事件（如物体出镜再入镜）。

记忆可靠度 (Memory Reliability, S_rel)：仅在成功触发挑战的样本上计算一致性得分。

最终的 M-Score 取两者的调和平均数。这种设计旨在惩罚那些通过生成静态画面来规避一致性挑战的“偷懒”模型，奖励那些既能模拟动态世界又能保持长时一致性的优秀模型。

14个SOTA模型大评测：揭示大模型的四大记忆痛点

通过对 8 个文本驱动模型和 6 个动作驱动模型进行大规模评测，MBench 揭示了当前主流模型在记忆能力上的真实边界：

首先，空间与因果能力是主要瓶颈。评测结果显示，多数模型在长时序视角转换下的空间几何还原，以及涉及物理演化的因果逻辑保持上存在显著缺陷，难以找回消失的视图或延续画面外的物理过程。

其次，动作驱动模型存在普遍的“偏科”与“偷懒”现象。这类模型虽然在空间稳定性指标上表现较好，但倾向于生成过度静态的场景。这种方式虽然规避了空间坍缩，但模型实际上无法驱动复杂的物理演化。

最后，视觉逼真度不等于记忆稳定性。实验证明，能够合成高质量、高保真画面的模型，在长时序记忆维度上不一定占优。这说明单纯的视觉生成指标无法替代对模型内部状态持久性的专项评估。

总结与展望

从生成单张图片到合成分钟级视频，人工智能在视觉生成领域取得了令人瞩目的进步。然而，要实现能够理解、预测并进行交互的通用AGI世界模型，并让流式视频生成保持长时一致性，我们仍有很长的路要走。而“记忆”，正是构建这些核心能力的基石。

MBench 的开源不仅为行业提供了评估标准，也为未来的研究指明了方向。随着该基准的推广，我们终将迎来能够“记住世界、理解世界、预测世界”的下一代视频世界模型。

想要持续追踪多模态大模型、提示词优化以及最新的AI变现案例，请锁定 AIGC.bar，为您带来每日精选的AI日报与前沿技术洞察。