生数科技MotuBrain:国产世界模型如何零宣发登顶双榜?
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能领域,我们习惯了动辄举办发布会、融资新闻不断的喧嚣。然而,最近具身智能圈内的一匹“黑马”却打破了这种常规。国产AI公司生数科技在完全没有任何宣发的情况下,凭借其研发的通用世界行动模型——MotuBrain,悄无声息地登顶了WorldArena和RoboTwin 2.0两大国际权威榜单。这一成就不仅刷新了行业纪录,更向世界展示了中国团队在通用机器人大脑领域的深厚技术积淀。
零宣发背后的硬核实力
MotuBrain的出现极为反常。没有Logo、没有发布会,甚至连社交媒体账号都是新注册的。然而,它在WorldArena测试中以63.77的EWM Score位列第一,并在RoboTwin 2.0的复杂场景下取得了95.8和96.1的惊人成绩。
这种“反差感”背后,是生数科技对技术路线的极度自信。业内长期存在两个“极点”:做世界模型的懂感知但动不了,做VLA(视觉-语言-动作)的能动手但想不远。MotuBrain的出现,标志着“看-想-动”闭环的真正打通。如果你想了解更多全球前沿的AI技术资讯与行业动态,可以访问 AI资讯门户 获取最新信息。
技术突破:大一统架构的胜利
MotuBrain并非凭空产生,它是生数科技在去年开源的大一统世界模型Motus基础上的“完全体”。其核心创新点在于采用了混合Transformer (MoT) 架构,将视频生成、语义理解和动作生成三个高性能基座模型融为一体。
- 潜动作机制:通过Latent Action VAE,模型能从海量互联网视频中提取通用运动规律,摆脱了对单一机器人数据的依赖。
- 视觉与语言融合:MotuBrain支持任意视角视觉建模,并将语言指令直接融入底层动作生成,实现了真正的“一脑贯通”。
- 长程执行能力:不同于以往只能执行2-3步原子动作的Demo,MotuBrain能够处理超过10个原子动作的长序列任务,极大增强了在真实复杂环境下的稳定性。
从感知世界到驱动行动的范式转移
MotuBrain最让具身智能圈震动的地方,在于其“一脑多能”与“一脑多型”的特性。在过去,机器人需要为不同任务、不同硬件单独训练模型,导致开发成本极高且泛化能力差。
MotuBrain通过统一动作表征,实现了对多种机器人本体的瞬间适配。无论是双臂机器人还是人形机器人,只要装载了MotuBrain,就能获得统一的“数字灵魂”。在演示中,它不仅能完成插花、浇水等精细操作,还能在整理洗漱台、调酒等长程任务中表现出极高的逻辑推演能力。这种对物理世界的深度建模,正是通往AGI的必经之路。
布局未来:从数字到物理的完整闭环
生数科技的战略视野非常清晰。他们将通用世界模型视为连接数字世界与物理世界的桥梁。在数字空间,他们有视频大模型Vidu;在物理空间,则通过MotuBrain实现对真实世界的行动控制。
这种双线并行的战略,使得生数科技能够利用多模态异构数据不断迭代模型。随着与无界动力、深朴智能等本体厂商的合作,MotuBrain正在从实验室的SOTA指标转化为工厂、家庭场景中的落地应用。更多关于大模型落地与AI变现的深度探讨,欢迎关注 AI每日资讯。
结论:机器人产业的拐点已至
过去几年,机器人产业过度关注电机、传感器等“身体”硬件,却忽略了“大脑”的缺失。MotuBrain的登顶,标志着行业重心已正式从“造身体”转向“造大脑”。
中国团队在这一领域的先发优势,证明了我们在通用机器人大脑赛道上已经具备了与硅谷巨头同台竞技的实力。随着MotuBrain在更多真实场景中的验证,我们有理由相信,具身智能正在加速进入千家万户,而那颗能够理解、预测并驱动世界的“大脑”,已经初见雏形。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)