零微调直接上岗！国产具身大模型开源深度解读 | AI资讯

type

status

date

slug

summary

突破后训练瓶颈：预训练大模型直接部署

在以往的具身智能研究中，预训练阶段的真实贡献往往被微调阶段的光芒所掩盖。就像一个大学生，如果必须经过严格的岗前培训才能拧螺丝，你很难评判他的大学教育究竟发挥了多大作用。

Wall-OSS-0.5的颠覆性在于，它在吸收了超过100万条真实机器人轨迹数据和约9000万条多模态语料后，完全不经过任何任务特定微调，就直接被部署到真实机器人上执行17项复杂任务。测试结果令人振奋：在400k预训练步数下，模型在包括语义理解、刚性/柔性物体操作等多个维度上表现出色。

最令人瞩目的是“绳子收紧”这一高难度未见任务。绳子作为典型的柔性物体，形态变化多端，且该任务需要双臂高度协同并动态感知力度。Wall-OSS-0.5能在毫无经验的情况下以82分（满分100）的高分完成，这证明它并非死记硬背了训练数据，而是真正掌握了物理世界的通用操作规律。这种能力的泛化，正是AGI在物理世界落地的关键一步。

阶梯式涌现与微调潜能：大模型的物理直觉

关注AI资讯的朋友们对“涌现能力”（Emergent Abilities）一定不陌生，这曾是chatGPT等纯文本大模型震惊世人的法宝。如今，Wall-OSS-0.5在物理操作上也展现出了类似的“阶梯式涌现”。

随着预训练步数的增加，模型在“积木分拣”和“套环叠放”等任务上的得分在训练中后期出现了从50分左右到满分的爆发式跃升。更重要的是，即使到了400k步，整体任务表现依然呈上升趋势，这意味着具身智能领域同样存在着Scaling Law（缩放定律），投入更多算力和数据，机器人将变得更加聪明。

同时，作为一个强大的基座模型，Wall-OSS-0.5在微调阶段更是展现了碾压级的优势。在同等数据预算下，其微调后的平均任务进度大幅领先行业标杆π0.5。无论是在RoboCasa厨房模拟环境的精密插入任务，还是在RoboTwin平台的复杂光照双臂协作任务中，它都展现出了极高的学习效率和场景鲁棒性。

动作与感知的双向进化：打破“头脑简单”魔咒

在传统的机器人训练中，往往存在一个痛点：模型学会了复杂的肢体动作后，其原本强大的视觉和语言理解能力就会退化。换句话说，变成了“四肢发达，头脑简单”。

Wall-OSS-0.5打破了这一魔咒。在接受高强度动作训练后，其基础的图文理解能力不仅没有崩坏，反而迎来了对机器人至关重要的“能力重塑”。测试表明，模型在具身视觉定位和放置推理任务上的得分大幅暴涨。这意味着，模型能够更好地理解用户的Prompt和提示词，主动将通用的视觉算力转化为“寻找目标、判断方位、推理落点”的实战感知能力。这种鱼与熊掌兼得的特性，在当前的人工智能前沿研究中具有里程碑式的意义。

揭秘Wall-OSS-0.5背后的四大核心黑科技

为什么Wall-OSS-0.5能取得如此反常识的成功？这得益于其底层训练逻辑上的系统性创新：

梯度桥接协同训练：不同于传统的“分层隔离”策略，研发团队将动作离散化为特殊的字符Token，与文本Token拼接，在VLM大脑中架起了一座“梯度桥”。这强迫主干网络在预训练阶段就把“看、说、动”统一在同一套表征空间里。

视觉对齐的动作Tokenizer：模型不仅压缩动作数值，更强制动作表征与对应时刻的视觉特征对齐。每一个动作Token都包含了“电机怎么转”和“画面怎么变”两层信息，让大模型真正在脑海中进行时空推演。

动作空间监督：摒弃了传统的预测瞬时速度，改为预测重建后的最终动作轨迹。这相当于让模型优先抓准动作的“骨架”，忽略无关的高频抖动，极大提升了训练效率和成功率。

DMuon分布式优化器：为了解决异构计算带来的梯度失配问题，团队开发了DMuon，将引入Muon优化器的开销缩减了约100倍，让这套庞大且精密的训练配方得以在大规模集群上高效运行。

拥抱开源生态：AGI与具身智能的未来

在商业化竞争日益激烈的今天，自变量机器人选择将Wall-OSS-0.5的模型权重、训练配方、消融实验与底层优化器全面开源，这无疑为整个具身智能社区注入了一剂强心针。开放，始终是通向通用机器人的最佳路径。

当然，具身智能的征途依然漫长。在涉及极高精度要求的柔性形变任务（如折叠毛巾）和精细对准任务（如插接充电器）上，纯靠预训练的零样本表现依然有待提升。但Wall-OSS-0.5已经为行业树立了一个全新的基线：后训练不再是必选项，预训练大模型直接上机操作的时代已经到来。

想要了解更多关于大模型、AI资讯以及最前沿的AI新闻？想要探索更多AI变现的商业机会和技术教程？欢迎随时访问我们的综合服务平台 https://aigc.bar，获取每日更新的AI日报与深度洞察，与我们一起见证人工智能重塑物理世界的伟大进程！