零微调直接上岗!国产具身大模型开源深度解读 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能飞速发展的今天,我们见证了LLM(大型语言模型)如chatGPT、claude以及openai旗下众多产品在数字世界的惊人表现。然而,如何让这些聪明的“大脑”走出屏幕,真正在物理世界中干活,一直是迈向AGI(通用人工智能)的核心难题。欢迎来到我们的AI门户,今天的AI日报将为您带来一条重磅的AI新闻:国内具身智能赛道迎来了突破性进展——自变量机器人(X Square Robot)正式开源了预训练具身大模型Wall-OSS-0.5,彻底打破了行业内“不微调就无法上岗”的潜规则。
过去,大多数视觉-语言-动作(VLA)模型在面对真实机器人任务时,都必须经过针对性的“考前突击”(即特定任务微调)。这引发了一个深刻的灵魂拷问:我们到底是在研发真正具备通用理解能力的“机器人大脑”,还是仅仅在为特定任务编写高级脚本?Wall-OSS-0.5的出现,用零样本(Zero-shot)的亮眼成绩给出了答案,也为大模型在实体经济中的AI变现指明了新方向。
突破后训练瓶颈:预训练大模型直接部署
在以往的具身智能研究中,预训练阶段的真实贡献往往被微调阶段的光芒所掩盖。就像一个大学生,如果必须经过严格的岗前培训才能拧螺丝,你很难评判他的大学教育究竟发挥了多大作用。
Wall-OSS-0.5的颠覆性在于,它在吸收了超过100万条真实机器人轨迹数据和约9000万条多模态语料后,完全不经过任何任务特定微调,就直接被部署到真实机器人上执行17项复杂任务。测试结果令人振奋:在400k预训练步数下,模型在包括语义理解、刚性/柔性物体操作等多个维度上表现出色。
最令人瞩目的是“绳子收紧”这一高难度未见任务。绳子作为典型的柔性物体,形态变化多端,且该任务需要双臂高度协同并动态感知力度。Wall-OSS-0.5能在毫无经验的情况下以82分(满分100)的高分完成,这证明它并非死记硬背了训练数据,而是真正掌握了物理世界的通用操作规律。这种能力的泛化,正是AGI在物理世界落地的关键一步。
阶梯式涌现与微调潜能:大模型的物理直觉
关注AI资讯的朋友们对“涌现能力”(Emergent Abilities)一定不陌生,这曾是chatGPT等纯文本大模型震惊世人的法宝。如今,Wall-OSS-0.5在物理操作上也展现出了类似的“阶梯式涌现”。
随着预训练步数的增加,模型在“积木分拣”和“套环叠放”等任务上的得分在训练中后期出现了从50分左右到满分的爆发式跃升。更重要的是,即使到了400k步,整体任务表现依然呈上升趋势,这意味着具身智能领域同样存在着Scaling Law(缩放定律),投入更多算力和数据,机器人将变得更加聪明。
同时,作为一个强大的基座模型,Wall-OSS-0.5在微调阶段更是展现了碾压级的优势。在同等数据预算下,其微调后的平均任务进度大幅领先行业标杆π0.5。无论是在RoboCasa厨房模拟环境的精密插入任务,还是在RoboTwin平台的复杂光照双臂协作任务中,它都展现出了极高的学习效率和场景鲁棒性。
动作与感知的双向进化:打破“头脑简单”魔咒
在传统的机器人训练中,往往存在一个痛点:模型学会了复杂的肢体动作后,其原本强大的视觉和语言理解能力就会退化。换句话说,变成了“四肢发达,头脑简单”。
Wall-OSS-0.5打破了这一魔咒。在接受高强度动作训练后,其基础的图文理解能力不仅没有崩坏,反而迎来了对机器人至关重要的“能力重塑”。测试表明,模型在具身视觉定位和放置推理任务上的得分大幅暴涨。这意味着,模型能够更好地理解用户的Prompt和提示词,主动将通用的视觉算力转化为“寻找目标、判断方位、推理落点”的实战感知能力。这种鱼与熊掌兼得的特性,在当前的人工智能前沿研究中具有里程碑式的意义。
揭秘Wall-OSS-0.5背后的四大核心黑科技
为什么Wall-OSS-0.5能取得如此反常识的成功?这得益于其底层训练逻辑上的系统性创新:
- 梯度桥接协同训练:不同于传统的“分层隔离”策略,研发团队将动作离散化为特殊的字符Token,与文本Token拼接,在VLM大脑中架起了一座“梯度桥”。这强迫主干网络在预训练阶段就把“看、说、动”统一在同一套表征空间里。
- 视觉对齐的动作Tokenizer:模型不仅压缩动作数值,更强制动作表征与对应时刻的视觉特征对齐。每一个动作Token都包含了“电机怎么转”和“画面怎么变”两层信息,让大模型真正在脑海中进行时空推演。
- 动作空间监督:摒弃了传统的预测瞬时速度,改为预测重建后的最终动作轨迹。这相当于让模型优先抓准动作的“骨架”,忽略无关的高频抖动,极大提升了训练效率和成功率。
- DMuon分布式优化器:为了解决异构计算带来的梯度失配问题,团队开发了DMuon,将引入Muon优化器的开销缩减了约100倍,让这套庞大且精密的训练配方得以在大规模集群上高效运行。
拥抱开源生态:AGI与具身智能的未来
在商业化竞争日益激烈的今天,自变量机器人选择将Wall-OSS-0.5的模型权重、训练配方、消融实验与底层优化器全面开源,这无疑为整个具身智能社区注入了一剂强心针。开放,始终是通向通用机器人的最佳路径。
当然,具身智能的征途依然漫长。在涉及极高精度要求的柔性形变任务(如折叠毛巾)和精细对准任务(如插接充电器)上,纯靠预训练的零样本表现依然有待提升。但Wall-OSS-0.5已经为行业树立了一个全新的基线:后训练不再是必选项,预训练大模型直接上机操作的时代已经到来。
想要了解更多关于大模型、AI资讯以及最前沿的AI新闻?想要探索更多AI变现的商业机会和技术教程?欢迎随时访问我们的综合服务平台 https://aigc.bar,获取每日更新的AI日报与深度洞察,与我们一起见证人工智能重塑物理世界的伟大进程!
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)