AI新闻:MINT让机器人理解意图,强泛化VLA重塑大模型未来

type
status
date
slug
summary
tags
category
icon
password
网址
随着人工智能AI)与具身智能技术的飞速发展,机器人视觉语言动作(VLA)模型正成为学术界与工业界关注的焦点。在openaichatGPT以及claude等大语言模型(LLM)证明了数字世界的智能后,如何让机器人走向物理世界并灵活执行复杂任务,成为了通往通用人工智能(AGI)的关键一步。
然而,当前的VLA模型大多仍是“展台机器人”。它们在特定的光照、背景和摆放位置下表现优异,但只要环境发生微小改变,成功率就会遭遇断崖式下跌。为了解决这一痛点,上海创智学院、上海交通大学与智动未来合作,在RSS 2026上提出了全新的VLA架构与训练范式——MINT。这一研究让机器人从简单的“模仿轨迹”走向了深度的“理解意图”,大幅提升了模型的泛化性与迁移能力。
想要了解更多前沿的AI资讯AI新闻以及AI日报,欢迎访问专业的AI门户 AIGC.bar

传统VLA的瓶颈:为什么“展台机器人”无法走向现实世界

目前主流的VLA模型在面对实际应用场景时,通常面临两大核心困境:组合泛化(Compositional Generalization)与小样本迁移(Few-shot / One-shot Transfer)。
组合泛化要求机器人在学会基础技能(如“拿起杯子”和“倒水”)后,能够自发组合出长程任务。而小样本迁移则期望机器人能像人类一样,仅通过一次或几次示教,就能快速掌握新任务。
传统范式往往过度对齐原始的动作轨迹,忽略了对“轨迹背后意图”的显式表征。当环境的视觉特征(如背景、光照)发生变化时,模型由于只学会了死板的轨迹,便无法做出正确调整。这导致每次面对新任务时,开发者都需要重新收集成百上千条示教数据,极大地限制了AI变现与商业化落地的进程。

核心创新:频谱分解动作词元化(SDAT)

为了打破这一僵局,MINT引入了“频谱分解动作词元化”(Spectrally Disentangled Action Tokenization, SDAT)技术。该技术从信号处理的独特视角出发,将动作轨迹视为具备频谱结构的时间信号。
SDAT将动作表征映射为不同尺度的金字塔形词元体系:
  • 最粗粒度词元(S1尺度):主要表征低频信号,对应全局的行为意图,被称为“意图词元”(Intent Token)。
  • 更细粒度词元(S2-SK尺度):逐步补充高频的执行细节,被称为“执行词元”(Execution Tokens)。
为了确保不同尺度的词元能准确对应低频和高频信号,MINT采用了残差学习(Residual Learning)、由粗到细的多尺度重建(Coarse-to-fine Multi-scale Reconstruction)以及频域重建(Frequency-domain Reconstruction)等技术。这种设计让粗尺度词元专注于捕捉轨迹的大体形态和意图,而细尺度词元则专注于补充控制细节,实现了意图与执行的完美解耦。

策略学习与迁移:一次示教即可掌握新技能

在策略生成层面,MINT采用了“意图 -> 执行”的分层推理机制。模型首先预测出抽象的Intent Token,再逐层生成Execution Tokens,最后将这些多尺度词元解码为连续的控制轨迹。
这种分步推理方式不仅提升了学习效率,更带来了革命性的策略迁移能力——“基于意图词元注入的单次示教迁移”(One-shot Transfer via Intent Token Injection)。
由于Intent Token代表的是高度抽象的行为意图,它完全可以替代复杂的语言指令或提示词Prompt),直接作为任务的表达方式。对于一个全新的任务,模型无需重新训练,只需提供一条示教轨迹并提取其Intent Token,将其注入到生成过程中,模型即可自动补全执行细节并完成任务。这种迁移方式在跨任务和跨场景时表现出了极高的稳定性。

实验数据与真机验证:全面碾压SOTA

在LIBERO、CALVIN和MetaWorld三个主流基准测试中,MINT的性能全面超越了现有的SOTA(State-of-the-Art)方法。
在LIBERO数据集上,拥有4B参数并结合了预训练VLM的MINT-4B,其平均任务成功率达到了惊人的98.3%。面对相机视角变化、背景纹理、光照及视觉噪声等强干扰时,MINT依然维持了84.6%至96.6%的高成功率,展现出极强的抗分布外扰动能力。
在迁移性测试中,MINT通过单次示教迁移,在新任务上的成功率高达90%,而传统通过微调迁移的方法成功率仅为42%。更令人兴奋的是,MINT展现出了强大的组合泛化潜力,能够将训练中单独学习的技能自动串联执行。
研究团队还在真实的Piper-X 6DoF机械臂上进行了真机验证。即使在每项任务仅提供20条示教轨迹的严苛条件下,MINT-4B的整体成功率仍比主流VLA模型提升了29%,并成功将“堆叠”这一抽象意图从叠积木任务零样本迁移到了叠杯子任务中。

结语:具身智能与大模型融合的未来

MINT的提出,标志着机器人VLA模型正在从“被动模仿”走向“主动理解”。通过对意图与执行的频谱解耦,MINT不仅攻克了泛化与迁移的行业难题,也为未来更广泛的工业与家庭机器人应用铺平了道路。随着人工智能技术的不断演进,结合了强泛化VLA的具身智能将成为下一个AI变现的黄金赛道。
想要持续追踪机器人、大模型及前沿AGI的最新动态,获取深度行业分析与AI新闻,请锁定AI门户 AIGC.bar,为您带来每日不可错过的AI资讯与技术干货。
Loading...

没有找到文章