人形机器人真机强化学习新突破:通研院LIFT框架引领AGI新范式 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

引言:人形机器人迈向持续进化的关键一步
在人工智能与机器人技术高度融合的今天,我们已经见证了人形机器人在实验室环境下完成奔跑、跳舞甚至后空翻等高难度动作。然而,通用人工智能(AGI)的核心诉求不仅是“学会某项技能”,而是机器人能否在部署到真实世界后,面对摩擦力变化、载荷波动、设备老化等未知环境因素,持续地进行自我进化与改进。
近日,北京通用人工智能研究院(通研院)与西安电子科技大学的研究团队在 ICLR 2026 上提出了一种名为 LIFT (Large-Scale PretraIning and Efficient FineTuning) 的新范式。这一框架旨在打破传统“仿真训练,真机冻结”的局限,通过预训练与真机高效微调的结合,为人形机器人的真机强化学习开辟了新路径。想要获取更多前沿 AI 资讯,欢迎访问 AI门户。
传统 Sim2Real 路线的硬瓶颈
目前,人形机器人的主流开发路线是依赖大规模域随机化的 Sim2Real(仿真到现实)迁移。虽然这种方法在仿真中表现强劲,但一旦部署到真实世界,策略往往会被冻结。面对现实中复杂的动力学变化,系统通常只能回到仿真环境重新调参,缺乏真正的持续学习能力。
在真机上直接进行强化学习(RL)面临两大核心挑战:
1. 安全性问题:传统的随机探索(如 PPO 算法)极易导致机器人摔倒或硬件损坏。
2. 效率问题:真机交互成本高昂且数据获取速度慢。
现有的 PPO 算法由于无法有效复用旧数据,且依赖高度随机的探索,在真机微调阶段显得既不安全也不经济。
LIFT 框架的核心洞察:SAC 与世界模型的协同
为了解决上述难题,LIFT 框架提出了三个核心洞察,重新定义了人形控制的训练流程。
洞察一:SAC 算法在数据受限下的优越性
研究团队发现,相比于目前广泛使用的 PPO(在策略算法),SAC(Soft Actor-Critic,离策略算法)在数据多样性不足时具有更高的样本效率。SAC 的离策略特性允许它复用历史数据,其与状态相关的随机策略能促进在世界模型中的有效探索,生成更高质量的训练轨迹。
洞察二:大规模预训练与零样本部署
通过利用 Jax 框架实现的并行化 SAC,研究团队在极短时间内(如半小时内)即可完成基础行走任务的预训练。这种经过优化的策略具备良好的泛化能力,可以直接作为真机部署的起点(Zero-shot),为后续的持续学习提供稳定的初始状态。
洞察三:物理信息增强的世界模型
这是 LIFT 框架最具创新性的部分。研究者并未采用纯黑盒的神经网络,而是将 Ensemble 网络与人形机器人动力学模型结合。通过让网络预测接触力和不确定性,再结合物理方程计算加速度和状态,构建了一个“物理信息增强”的世界模型。这种方法显著降低了模型预测误差,避免了高维接触动力学下的误差累积。
实验验证:从仿真到真机的惊人表现
在 Booster T1 和 Unitree G1 两款人形机器人平台上的实验结果证明了 LIFT 的强大性能。
在仿真微调实验中,LIFT 在分布内、长尾分布以及分布外(OOD)的三种场景下,均能在极少的样本量下实现收敛。例如,对于预训练中未见过的 1.5 m/s 高速行走任务,LIFT 仅需约 800 秒的交互数据即可完成微调,使机器人步态更平顺、速度跟踪更精准。
在更具挑战性的 真机微调 任务中,面对仿真预训练迁移失败的策略,LIFT 通过多轮迭代,仅利用 80 至 590 秒的真实物理数据,就成功修正了机器人的不稳定行为。这种效率在以往的人形机器人研究中是难以想象的。
结论与未来展望:通向 AGI 的闭环学习
LIFT 框架的成功说明,将高风险的探索转移到物理增强的世界模型中,并利用可控的真实数据采集进行微调,是实现人形机器人真机强化学习的可行方向。
然而,要实现真正的大规模应用,未来仍需解决几个关键问题:
* 状态估计的解耦:减少对外部动捕系统的依赖,提升机器人在开放环境中的自主性。
* 自动化安全机制:设计不确定性驱动的保护策略,确保机器人在尝试新动作时的物理安全。
* 系统吞吐量优化:构建异步采集与训练系统,实现真正的“边跑边学”。
随着这些技术的逐步成熟,强化学习将不再局限于仿真器,而是在真实世界中发挥其真正的威力。了解更多关于人工智能、大模型及 AI 变现的深度内容,请持续关注 AI新闻门户。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)