清华开源Spatial-TTT空间模型:流式学习击败Gemini

type
status
date
slug
summary
tags
category
icon
password
网址
在机器人、自动驾驶以及AR(增强现实)等真实物理场景中,空间理解一直是一个极具挑战性的难题。真实世界并不是一张静态的图片,也不是一段剪辑好的短视频,而是一段持续展开的、充满动态变化的经验流。相机在移动、视角在旋转、物体在被遮挡后又重新出现。
对于多模态大模型(LLM)而言,如果每次面对新画面都像第一次看到世界一样,就无法实现真正的空间智能。近日,由清华大学研究团队主导的全新开源空间模型 Spatial-TTT 正式入选计算机视觉顶级会议 ECCV 2026。令人瞩目的是,这个仅有 2B(20亿)参数规模的轻量化模型,在多个空间智能基准测试中击败了 GPT-5、Gemini-3-pro 等闭源巨头,并能稳定处理长达 120 分钟的流式视频。
这一突破性的研究表明:真正的空间智能,不是依靠无限膨胀的上下文窗口,而是在世界的动态变化中进行持续的流式学习。想要获取更多前沿 AI 资讯与大模型技术深度解读,欢迎访问 AI 门户 AIGC.bar

传统长上下文的困局:能看长视频不等于懂空间

在现有的多模态大模型技术路线中,为了让模型理解长视频,主流的做法是不断拓宽上下文窗口(Context Window)。然而,这种“把所有历史帧一次性塞进上下文”的暴力方法,在实际应用中面临着巨大的瓶颈。
首先,随着视频长度的增加,Transformer 的自注意力机制(Self-Attention)会导致计算量和显存占用呈二次方爆炸,极易引发内存溢出(OOM)。其次,空间信息是分散在时间维度上的,相机移动带来的视角变化、物体的时隐时现,要求模型必须能够主动选择、组织并保留关键的空间几何线索。传统的静态推理范式缺乏一种在线更新机制,无法在推理过程中将新观察到的视觉信息实时转化为稳定的空间记忆。
为了解决这一痛点,清华大学团队将目光投向了 TTT(Test-Time Training,测试时训练) 机制,旨在让模型在推理时能够“边看边学”,将模型参数本身转化为动态更新的记忆载体。

Spatial-TTT 的核心机制:把模型参数变成动态空间记忆

Spatial-TTT 的核心思想是引入快速权重(fast weights)作为一种紧凑的非线性记忆。在处理连续的视频流时,模型不需要将历史帧全部保存在上下文窗口中,而是像人类在大脑中构建空间认知一样,通过在线更新参数的方式,将跨越时间的 3D 空间证据逐步累积到快速权重中。
每当新的视频分块(chunk)输入模型,Spatial-TTT 就会对已有的空间记忆进行一次增量式刷新。这种设计不仅极大地释放了显存压力,还让模型拥有了真正意义上的“持久空间状态”。
然而,将 TTT 应用于流式视觉空间理解并非易事。模型不仅需要保留在预训练阶段获得的强大视觉-语言对齐能力,还要显式地利用视频帧之间的局部几何关系与时间连续性。为此,研究团队设计了三大核心技术创新。

三大硬核设计:兼顾语义理解与几何连续性

为了让 TTT 机制在空间智能任务中真正发挥作用,Spatial-TTT 引入了以下三大协同设计:

1. 混合式 TTT 架构

如果将多模态大模型的所有注意力层全部替换为 TTT 层,虽然能大幅提升长视频的处理效率,但会严重破坏模型原本的语义理解和跨模态推理能力。
Spatial-TTT 采用了混合式架构,在解码器中按照 3:1 的比例交错插入 TTT 层与标准自注意力锚定层(self-attention anchor layers): * 75% 的 TTT 层:负责将长程时空信息写入快速权重,实现超长视频的线性复杂度处理。 * 25% 的全注意力锚定层:负责维持模型已有的预训练语义知识,确保模型在“记得久”的同时“理解得准”。
此外,模型引入了大块更新(large-chunk update)并行滑动窗口注意力(sliding-window attention)。滑动窗口负责建模近期帧的局部空间结构,而快速权重则负责跨分块保存长期记忆,两者分工明确。

2. 空间预测机制(Spatial-predictive mechanism)

传统的 TTT 机制中,Query/Key/Value(Q/K/V)通常是通过逐点线性投影生成的,这使得每个视觉 token 被孤立对待,忽略了视频中天然存在的时空连续性。
Spatial-TTT 在 TTT 分支中引入了轻量级的 3D 时空卷积。通过这种空间预测机制,快速权重学习到的不再是孤立的点对点映射,而是时空上下文之间的预测关系。这使得模型能够更好地捕捉视角变化与几何对应关系,显著提升了在线更新的稳定性。

3. 稠密场景描述监督

传统的空间智能训练数据大多是稀疏的问答对(例如:“红色的杯子在蓝色盒子的哪一边?”),这不足以支撑快速权重去维护一个全局的 3D 空间记忆。
为此,研究团队构建了一套稠密 3D 场景描述数据集,要求模型生成覆盖全局语境、物体空间关系及数量的场景漫游描述(scene walkthrough)。通过两阶段渐进式训练(第一阶段建立全局 3D 意识,第二阶段强化空间推理),使模型真正具备了维护全局 3D 记忆的能力。

性能实测:2B 小模型逆袭闭源巨头

在多项空间智能基准测试中,Spatial-TTT 展现出了令人惊艳的性能:
  • MindCube-Tiny 基准测试:在考验多视角细粒度空间推理的测试中,Spatial-TTT-2B 取得了 76.2% 的准确率,不仅远超开源空间模型 MindCube-3B(51.7%),更是将行业领先的闭源模型 Gemini-3-pro(63.9%)甩开了 12 个百分点。
  • VSI-Bench 测试:在绝对距离估计、相对方向判断和路径规划等任务上,Spatial-TTT-2B 均取得了领先成绩,证明了其出色的度量级空间估计能力。
  • 超长视频挑战(VSI-SUPER):在处理 10 分钟到 120 分钟的流式视频时,传统模型由于上下文过长导致性能崩溃或显存溢出(OOM),而 Spatial-TTT 凭借在线更新机制,在 120 分钟的视频流中依然保持了高水平的空间推理能力。
  • 计算效率:在 1024 帧的输入设置下,Spatial-TTT-2B 相比同类模型节省了超过 40% 的显存占用与计算量

走向持续的世界状态建模

Spatial-TTT 的成功,为人工智能从“静态感知”走向“具身智能(Embodied AI)”提供了一条全新的技术路径。对于机器人、自动驾驶系统和 AR 设备等需要长期在物理世界中运行的 Agent 而言,它们需要的不是一次性看完所有历史,而是在移动和观察中,不断积累、修正并调用自己的空间经验。
当空间信息能够以“持续世界状态”的形式被模型内化,Agent 面对的将不再是彼此割裂的画面,而是一个具有连续性、可预测、可交互的真实物理世界。
关注 AI 最新动态,获取更多大模型与人工智能前沿资讯,请访问 AIGC.bar
Loading...

没有找到文章