AI新闻：MINT让机器人理解意图，强泛化VLA重塑大模型未来

type

status

date

slug

summary

传统VLA的瓶颈：为什么“展台机器人”无法走向现实世界

目前主流的VLA模型在面对实际应用场景时，通常面临两大核心困境：组合泛化（Compositional Generalization）与小样本迁移（Few-shot / One-shot Transfer）。

组合泛化要求机器人在学会基础技能（如“拿起杯子”和“倒水”）后，能够自发组合出长程任务。而小样本迁移则期望机器人能像人类一样，仅通过一次或几次示教，就能快速掌握新任务。

传统范式往往过度对齐原始的动作轨迹，忽略了对“轨迹背后意图”的显式表征。当环境的视觉特征（如背景、光照）发生变化时，模型由于只学会了死板的轨迹，便无法做出正确调整。这导致每次面对新任务时，开发者都需要重新收集成百上千条示教数据，极大地限制了AI变现与商业化落地的进程。

核心创新：频谱分解动作词元化（SDAT）

为了打破这一僵局，MINT引入了“频谱分解动作词元化”（Spectrally Disentangled Action Tokenization, SDAT）技术。该技术从信号处理的独特视角出发，将动作轨迹视为具备频谱结构的时间信号。

SDAT将动作表征映射为不同尺度的金字塔形词元体系：

最粗粒度词元（S1尺度）：主要表征低频信号，对应全局的行为意图，被称为“意图词元”（Intent Token）。

更细粒度词元（S2-SK尺度）：逐步补充高频的执行细节，被称为“执行词元”（Execution Tokens）。

为了确保不同尺度的词元能准确对应低频和高频信号，MINT采用了残差学习（Residual Learning）、由粗到细的多尺度重建（Coarse-to-fine Multi-scale Reconstruction）以及频域重建（Frequency-domain Reconstruction）等技术。这种设计让粗尺度词元专注于捕捉轨迹的大体形态和意图，而细尺度词元则专注于补充控制细节，实现了意图与执行的完美解耦。

策略学习与迁移：一次示教即可掌握新技能

在策略生成层面，MINT采用了“意图 -> 执行”的分层推理机制。模型首先预测出抽象的Intent Token，再逐层生成Execution Tokens，最后将这些多尺度词元解码为连续的控制轨迹。

这种分步推理方式不仅提升了学习效率，更带来了革命性的策略迁移能力——“基于意图词元注入的单次示教迁移”（One-shot Transfer via Intent Token Injection）。

由于Intent Token代表的是高度抽象的行为意图，它完全可以替代复杂的语言指令或提示词（Prompt），直接作为任务的表达方式。对于一个全新的任务，模型无需重新训练，只需提供一条示教轨迹并提取其Intent Token，将其注入到生成过程中，模型即可自动补全执行细节并完成任务。这种迁移方式在跨任务和跨场景时表现出了极高的稳定性。

实验数据与真机验证：全面碾压SOTA

在LIBERO、CALVIN和MetaWorld三个主流基准测试中，MINT的性能全面超越了现有的SOTA（State-of-the-Art）方法。

在LIBERO数据集上，拥有4B参数并结合了预训练VLM的MINT-4B，其平均任务成功率达到了惊人的98.3%。面对相机视角变化、背景纹理、光照及视觉噪声等强干扰时，MINT依然维持了84.6%至96.6%的高成功率，展现出极强的抗分布外扰动能力。

在迁移性测试中，MINT通过单次示教迁移，在新任务上的成功率高达90%，而传统通过微调迁移的方法成功率仅为42%。更令人兴奋的是，MINT展现出了强大的组合泛化潜力，能够将训练中单独学习的技能自动串联执行。

研究团队还在真实的Piper-X 6DoF机械臂上进行了真机验证。即使在每项任务仅提供20条示教轨迹的严苛条件下，MINT-4B的整体成功率仍比主流VLA模型提升了29%，并成功将“堆叠”这一抽象意图从叠积木任务零样本迁移到了叠杯子任务中。

结语：具身智能与大模型融合的未来

MINT的提出，标志着机器人VLA模型正在从“被动模仿”走向“主动理解”。通过对意图与执行的频谱解耦，MINT不仅攻克了泛化与迁移的行业难题，也为未来更广泛的工业与家庭机器人应用铺平了道路。随着人工智能技术的不断演进，结合了强泛化VLA的具身智能将成为下一个AI变现的黄金赛道。

想要持续追踪机器人、大模型及前沿AGI的最新动态，获取深度行业分析与AI新闻，请锁定AI门户 AIGC.bar，为您带来每日不可错过的AI资讯与技术干货。