清华开源Spatial-TTT空间模型：流式学习击败Gemini

type

status

date

slug

summary

传统长上下文的困局：能看长视频不等于懂空间

在现有的多模态大模型技术路线中，为了让模型理解长视频，主流的做法是不断拓宽上下文窗口（Context Window）。然而，这种“把所有历史帧一次性塞进上下文”的暴力方法，在实际应用中面临着巨大的瓶颈。

首先，随着视频长度的增加，Transformer 的自注意力机制（Self-Attention）会导致计算量和显存占用呈二次方爆炸，极易引发内存溢出（OOM）。其次，空间信息是分散在时间维度上的，相机移动带来的视角变化、物体的时隐时现，要求模型必须能够主动选择、组织并保留关键的空间几何线索。传统的静态推理范式缺乏一种在线更新机制，无法在推理过程中将新观察到的视觉信息实时转化为稳定的空间记忆。

为了解决这一痛点，清华大学团队将目光投向了 TTT（Test-Time Training，测试时训练） 机制，旨在让模型在推理时能够“边看边学”，将模型参数本身转化为动态更新的记忆载体。

Spatial-TTT 的核心机制：把模型参数变成动态空间记忆

Spatial-TTT 的核心思想是引入快速权重（fast weights）作为一种紧凑的非线性记忆。在处理连续的视频流时，模型不需要将历史帧全部保存在上下文窗口中，而是像人类在大脑中构建空间认知一样，通过在线更新参数的方式，将跨越时间的 3D 空间证据逐步累积到快速权重中。

每当新的视频分块（chunk）输入模型，Spatial-TTT 就会对已有的空间记忆进行一次增量式刷新。这种设计不仅极大地释放了显存压力，还让模型拥有了真正意义上的“持久空间状态”。

然而，将 TTT 应用于流式视觉空间理解并非易事。模型不仅需要保留在预训练阶段获得的强大视觉-语言对齐能力，还要显式地利用视频帧之间的局部几何关系与时间连续性。为此，研究团队设计了三大核心技术创新。

三大硬核设计：兼顾语义理解与几何连续性

为了让 TTT 机制在空间智能任务中真正发挥作用，Spatial-TTT 引入了以下三大协同设计：

1. 混合式 TTT 架构

如果将多模态大模型的所有注意力层全部替换为 TTT 层，虽然能大幅提升长视频的处理效率，但会严重破坏模型原本的语义理解和跨模态推理能力。

Spatial-TTT 采用了混合式架构，在解码器中按照 3:1 的比例交错插入 TTT 层与标准自注意力锚定层（self-attention anchor layers）： * 75% 的 TTT 层：负责将长程时空信息写入快速权重，实现超长视频的线性复杂度处理。 * 25% 的全注意力锚定层：负责维持模型已有的预训练语义知识，确保模型在“记得久”的同时“理解得准”。

此外，模型引入了大块更新（large-chunk update）与并行滑动窗口注意力（sliding-window attention）。滑动窗口负责建模近期帧的局部空间结构，而快速权重则负责跨分块保存长期记忆，两者分工明确。

2. 空间预测机制（Spatial-predictive mechanism）

传统的 TTT 机制中，Query/Key/Value（Q/K/V）通常是通过逐点线性投影生成的，这使得每个视觉 token 被孤立对待，忽略了视频中天然存在的时空连续性。

Spatial-TTT 在 TTT 分支中引入了轻量级的 3D 时空卷积。通过这种空间预测机制，快速权重学习到的不再是孤立的点对点映射，而是时空上下文之间的预测关系。这使得模型能够更好地捕捉视角变化与几何对应关系，显著提升了在线更新的稳定性。

3. 稠密场景描述监督

传统的空间智能训练数据大多是稀疏的问答对（例如：“红色的杯子在蓝色盒子的哪一边？”），这不足以支撑快速权重去维护一个全局的 3D 空间记忆。

为此，研究团队构建了一套稠密 3D 场景描述数据集，要求模型生成覆盖全局语境、物体空间关系及数量的场景漫游描述（scene walkthrough）。通过两阶段渐进式训练（第一阶段建立全局 3D 意识，第二阶段强化空间推理），使模型真正具备了维护全局 3D 记忆的能力。

性能实测：2B 小模型逆袭闭源巨头

在多项空间智能基准测试中，Spatial-TTT 展现出了令人惊艳的性能：

MindCube-Tiny 基准测试：在考验多视角细粒度空间推理的测试中，Spatial-TTT-2B 取得了 76.2% 的准确率，不仅远超开源空间模型 MindCube-3B（51.7%），更是将行业领先的闭源模型 Gemini-3-pro（63.9%）甩开了 12 个百分点。

VSI-Bench 测试：在绝对距离估计、相对方向判断和路径规划等任务上，Spatial-TTT-2B 均取得了领先成绩，证明了其出色的度量级空间估计能力。

超长视频挑战（VSI-SUPER）：在处理 10 分钟到 120 分钟的流式视频时，传统模型由于上下文过长导致性能崩溃或显存溢出（OOM），而 Spatial-TTT 凭借在线更新机制，在 120 分钟的视频流中依然保持了高水平的空间推理能力。

计算效率：在 1024 帧的输入设置下，Spatial-TTT-2B 相比同类模型节省了超过 40% 的显存占用与计算量。

走向持续的世界状态建模

Spatial-TTT 的成功，为人工智能从“静态感知”走向“具身智能（Embodied AI）”提供了一条全新的技术路径。对于机器人、自动驾驶系统和 AR 设备等需要长期在物理世界中运行的 Agent 而言，它们需要的不是一次性看完所有历史，而是在移动和观察中，不断积累、修正并调用自己的空间经验。

当空间信息能够以“持续世界状态”的形式被模型内化，Agent 面对的将不再是彼此割裂的画面，而是一个具有连续性、可预测、可交互的真实物理世界。

关注 AI 最新动态，获取更多大模型与人工智能前沿资讯，请访问 AIGC.bar。