灵初智能:10万小时人类数据,重塑具身智能中国答案

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

具身智能新浪潮:灵初智能的“人类数据”中国方案

2026年,具身智能(Embodied AI)领域正以前所未有的速度演进,“世界模型”(World Model)成为行业热词,众多企业竞相将其技术路线与此关联,试图通过可学习的环境模型来加速机器人训练。然而,在这股浪潮中,一家名为灵初智能(PsiBot)的公司,却选择了一条与众不同的道路,并给出了一个基于“人类数据”的中国答案。
灵初联合创始人陈源培明确指出,世界模型并非其核心方向,而是服务于数据迁移的工具。“我们从Day One开始,就在做人类数据。”这句话不仅点明了灵初的独特技术哲学,也预示着一个全新的数据驱动范式正在形成。灵初真正探寻的是:真实人类的操作数据,能否大规模、高效地转化为机器人训练数据?这项探索,已在10万小时量级的数据实践中得到了初步验证,为具身智能的规模化落地提供了新的可能。

从Robot-Centric到Human-Centric:数据采集的范式转移

具身智能发展至今,数据瓶颈是绕不开的难题。规模、质量与迁移效率之间的权衡,是行业面临的核心挑战。
传统主流路线之一是“Teleoperation”(遥操作),通过与机器人本体相似的设备,让人类直接控制机器人或“影子臂”采集数据。这种方式因数据与机器人本体高度同构,迁移难度低,训练链路直观。然而,其弊端同样明显:采集成本高昂、设备笨重、场地依赖强,且操作员需要专门训练,难以实现数据的海量规模化生产。对于追求通用机器人能力的公司而言,这种“素材场式”的数据生产模式很快触及天花板。
另一条路线是“Ego data”(第一视角数据),即利用摄像头捕捉人类第一视角的操作数据。它成本较低,更贴近真实人类行为,但面临着人与机器人之间天然的“Gap”:关节结构、自由度、动作习惯、视觉视角等差异,导致直接迁移效率低下,数据噪声大,动作不规范。
灵初智能的判断是:数据迁移问题可以通过模型和算法管线解决,但数据的规模问题必须从采集方式上根本解决。
“我们设计外骨骼手套,一个很核心的原因就是尽量不影响人的日常工作。”陈源培解释道。这意味着,灵初瞄准的不是专门为机器人训练搭建的“素材场”,而是真实、持续产生人类操作行为的劳动场景,如物流、仓储、收银、工厂等。这种“Human-Centric”的路线,接受了更高的迁移难度,换取了更广阔的数据规模上限。
相比之下,UMI等“Robot-Centric”方案,虽然数据迁移效率可能更高,但操作者动作受到限制,难以深入真实工作场景。灵初则选择了一条更具挑战但潜力更大的路径。
目前,灵初正并行采集两类人类数据: * 外骨骼手套数据:通过机械连接捕捉手部和手臂的完整自由度,精度更高,不依赖IMU,能记录更全面的双手双臂动作。 * 纯视觉数据:采用头部和腕部摄像头记录操作过程,成本更低,规模化能力更强,更符合Nvidia等公司推崇的EGO路线,但动作精度相对稍弱。
灵初设计的高自由度手套,不仅仅是为了适配自家灵巧手,更是为了提升数据的跨本体迁移能力,使其能够灵活迁移到不同类型的机器人本体上。

W0与R2:世界模型驱动下的数据迁移与策略生成

人类数据路线的核心难点不在于采集,而在于如何有效地“迁移”。人类动作的噪声、不规范性以及与机器人动力学差异,都需要精密的转化管线。灵初智能的解决方案是:借助强化学习,在世界模型中完成迁移。
灵初构建了一个包含两个核心模块的系统:W0 (World Model)R2 (Robot Policy)
  • W0:一个动作条件下的世界模型,能够根据当前状态和执行动作,预测下一帧的状态。在训练阶段,W0扮演着一个可学习的仿真器的角色。
  • R2:即最终部署到机器人上的策略(Policy),负责执行实际操作。
在训练过程中,R2并不直接在昂贵的真实机器人上进行大规模试错。相反,它在W0构建的仿真环境中,通过强化学习进行在线迭代。W0提供环境反馈,R2在此环境中不断探索,学习将人类手部动力学迁移至机器人动力学,并生成新的训练数据,再反哺R2,形成一个高效的闭环学习系统。一旦模型训练成熟,W0便可退场,机器人上只需运行R2策略。
“如果模型训好了,自然就不需要W0了。W0是提升过程中的仿真器,而不是部署的一部分。”陈源培再次强调,世界模型是数据转化管线中的一个中间模块,其价值在于助力人类数据向机器人策略的迁移,而非独立的技术终点。
在这种体系下,数据质量的判断权部分交给了模型本身:一条数据能否在世界模型中成功转换,能否让策略(Policy)跑通,就成为了筛选标准。随着模型能力的提升,数据筛选的边界也会动态调整。
灵初在10万小时量级的人类数据内部验证中取得的成果,指向了一个关键问题:机器人基础模型是否必须依赖大规模的真机遥操作数据?陈源培的观点是,真机数据依然重要,但并非唯一燃料。当人类数据采集达到足够规模且迁移管线足够有效时,大量真机数据可以被人类数据部分替代,充当校准、验证和微调的补充。

从数据集到落地:SynData、小全栈与未来展望

灵初智能近期发布的SynData数据集,在Hugging Face上已获得约1.46万次下载。该数据集基于R2和W0体系,是新一代大规模真实世界多模态数据集,覆盖视觉、语言、动作等维度。通过其自研外骨骼手套系统,SynData能够捕捉高精度、完整自由度的双手双臂操作数据,并结合裸手数据和自然人类交互行为,为动作建模、操作学习、道具学习及多模态智能研究提供宝贵资源。
SynData的发布,是灵初技术路线的一次阶段性外化:以真实人类操作数据为底座,经由世界模型和强化学习完成迁移,最终训练出可部署的机器人策略。
商业化方面,灵初将当前发展阶段划分为三个层次: 1. 产能期:现阶段收入主体仍来自硬件(外骨骼手套、采集系统等),数据收入预计明年逐渐成为主体。 2. 调Policy期:机器人进入具体客户场景,仍需针对任务、环境和节拍要求调整策略。陈源培认为,真正无需调整的通用基模,尚需三到五年。 3. 基模期:这是终极目标,但非当下。
这也解释了灵初为何选择做“小全栈”——以模型为核心,向下掌握关键环节,但止步于核心零部件。触觉传感器、精密减速器等,则选择外采。这是因为落地需要硬件的稳定性、节拍要求与硬件高度耦合,当前模型与硬件的耦合度极高,仅做模型难以完成真实交付。
对于行业其他路线,灵初持开放但务实的态度。他们认为,Genesis等近期机器人Demo并不需要被神化,如果用灵初的硬件和数据体系去训练,同样可以实现。
陈源培对仿真持相对保守态度,认为仿真虽是重要工具,但期望其单独解决真实物理世界中的接触、长尾和高精度操作问题,概率不高。
那么,Human Data路线是否会被证伪?他认为,仅有两种可能:一是仿真出现巨大突破,能低成本生成足够真实、多样、可迁移的数据;二是某家公司具备强大的资金和工程能力,真正跑通真机数据飞轮。相比之下,他认为第二种可能性更高。
灵初智能Human Data路线真正要证明的,并非人类数据比真机数据更“干净”,而是在规模、成本、迁移效率和泛化能力之间,能否形成更优的综合解决方案。
这条路线的护城河,不仅在于庞大的数据量,更在于数据梳理的管线、积累和处理的方法。算法或许不是秘密,但数据管线和方法论的积累,是长期且难以被快速追赶的。此外,组织能力,包括组织的文化、结构和价值观,同样是构建竞争壁垒的关键。
从论文到公司,灵初智能始终致力于同一件事:让人类数据能够被机器人真正“用起来”,以构建通用机器人能力。VLA、世界模型、强化学习,都只是实现这一目标的工具。
--- *AI资讯,AI新闻,AI门户,AGI,LLM,大模型,提示词, openai, chatGPT, 人工智能, claude, AI日报, Prompt, AI变现等内容,请持续关注我们。*
Loading...

没有找到文章