南加州王越PSI Lab:CVPR三奖揭示AI机器人新路径
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能飞速发展的浪潮中,具身智能(Embodied AI)正成为下一代AI的关键前沿。坐落于南加州大学(USC)的PSI Lab(Physical Superintelligence Lab),在年轻的助理教授王越博士的带领下,正以惊人的速度崛起。该实验室在过去两三年间,不仅在研究产出上密度极高,更在顶级学术会议CVPR 2026上,与合作者一举斩获三项大奖,引起了AI研究界的广泛关注。这背后,PSI Lab究竟做对了什么?本文将深入解读其核心研究方向与方法论,揭示其在人形机器人及具身智能领域的关键突破。
PSI Lab的崛起之路与研究定位
王越博士于2022年从MIT EECS博士毕业,并在加入USC计算机系担任助理教授并创办PSI Lab之前,曾是NVIDIA自动驾驶研究组的研究科学家。他的学术生涯已积累了诸如点云理解经典工作DGCNN、DCP,以及自动驾驶3D感知方法DETR3D等重要成果。DGCNN更是成为点云深度学习领域不可绕过的里程碑。
PSI Lab成立虽短,但其学生团队的研究产出却异常活跃,不仅获得了包括NVIDIA Fellowship、Qualcomm Fellowship在内的多项知名奖学金和研究资助,本科生也获得了CRA杰出本科研究者等荣誉。这种高密度、高质量的产出,对于一个年轻的实验室而言,实属不易。
PSI Lab的研究定位并非单纯的计算机视觉(CV)或机器人控制,而是巧妙地将3D世界理解、物理世界感知与真实机器人任务置于交叉点上。其研究方向涵盖了当前最热门的人形机器人、灵巧操作、从人类视频学习机器人策略,以及面向实际部署的数据和学习系统。
CVPR 2026三项大奖:具身智能的三个关键环节
在今年的CVPR 2026具身智能Workshop上,PSI Lab及其合作者凭借三项突破性工作赢得了三项大奖,它们分别是:
- Psi-0: 获得3D-LLM/VLA Workshop Best Paper。
- PhysWorld: 获得3D-LLM/VLA Workshop Best Paper Runner-up。
- Humanoid Everyday: 获得Embodied AI Workshop (EAI) Best Paper。
这三项工作并非孤立的成果,而是共同指向了当前人形机器人发展最迫切的三个环节,并构成了一条相对完整的技术路径:
- 数据基础 (Humanoid Everyday):解决开放世界人形机器人的日常操作数据收集与评测基准问题。
- 基础模型框架 (Psi-0):训练一个能够迁移到人形机器人身体上的基础动作模型。
- 物理世界预测 (PhysWorld):让模型不仅能“看懂”世界,还能预测动作的物理后果。
## Psi-0:构建人形机器人的通用基础模型
Psi-0 (Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation) 的核心目标是解决人形机器人的 loco-manipulation 问题,即结合移动与操作的任务,如推车、递送、开水龙头等。这类任务更贴近人形机器人的未来实际应用,也远比固定的桌面操作复杂。
过去,一种思路是将人类视频、机器人轨迹等数据混合训练。然而,人类与人形机器人之间的“具身鸿沟”(embodiment gap)——即身体结构、运动方式、关节范围的差异——使得直接迁移存在挑战。
Psi-0 采用了分阶段训练的创新范式:
* 第一步(预训练): 利用约829小时的第一人称人类视频(如EgoDex数据集)进行预训练。第一人称视角提供了丰富的操作先验,如手部接近物体、物体移动、视野变化等,这些数据易于规模化采集,远超真机示教数据。
* 第二步(后训练): 使用约31小时的人形机器人轨迹数据(如Humanoid Everyday)进行后训练。这一阶段的关键是将预训练中学到的操作先验,精确对齐到人形机器人的身体结构、动作空间和实际控制约束上。
* 第三步(适配): 利用少量目标任务数据进行微调。
Psi-0 的意义在于,它将人形机器人基础模型的训练问题分解为清晰的阶段:先从大规模、易获取的人类数据中学习通用的交互先验,再通过机器人原生数据将这些先验转化为可执行的动作。这种数据组织和阶段性学习的策略,是构建通用人形机器人能力的关键。
## PhysWorld:让世界模型具备物理可执行性
PhysWorld (Robot Learning from a Physical World Model) 旨在构建一个真正服务于机器人的世界模型。传统的世界模型常以视频预测或生成为主,生成逼真的未来视频。然而,对机器人而言,视觉上的合理性远不够,更重要的是模型能否理解和预测动作的物理后果。
PhysWorld 的创新在于,它将视频生成、物理世界重建和机器人策略学习连接起来,超越了单纯的视觉预测。其流程包括:
1. 根据图像和任务指令生成任务相关视频。
2. 从视频中重建背后的以物体为中心 (object-centric) 的物理世界表示。
3. 通过 object-centric residual reinforcement learning,将视觉预测转化为机器人可执行的轨迹,并进行物理层面的修正,使其符合机器人动力学和环境约束。
PhysWorld 真正关心的是physical actionability——即世界模型预测的未来是否能转化为机器人实际可执行的动作。只有当这些预测能够进入机器人训练和控制闭环,世界模型才真正具备服务于机器人的价值。它表明,机器人所需的世界模型,不是生成最漂亮的视频,而是预测最“有用”的未来。
## Humanoid Everyday:开放世界人形操作的数据与评测底座
Humanoid Everyday (A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation) 是一个面向开放世界人形操作的数据集和评测平台。它解决了人形机器人学习在数据基础设施方面面临的基础性问题:如何构建覆盖真实场景、复杂任务和多模态感知的数据集。
与固定机械臂不同,人形机器人需要处理更开放、更复杂的任务,涉及移动、多臂协同、长程执行以及与复杂环境的交互。Humanoid Everyday 提供了260个任务、7类任务、1.03万条轨迹、超过300万帧数据,覆盖RGB、深度、LiDAR、触觉和自然语言标注等多种模态。
更重要的是,它还提供了一个云端评测平台。机器人学习长期面临评测难题,不同研究因环境、任务定义差异而难以直接比较。Humanoid Everyday 通过标准化评测,为模型能力提供了一个稳定的比较坐标,使研究者能更公平地评估不同方法的泛化能力和鲁棒性。
Humanoid Everyday 的价值在于,它不仅提供了规模化的数据,更建立了一个可训练、可评测、可复现的研究框架,为开放世界人形操作的研究奠定了坚实基础。
数据、模型与物理预测的系统闭环
PSI Lab的这三项工作,虽然对象不同,但共同指向了人形机器人发展的一个核心问题链条:数据如何构建?能力如何学习?动作后果如何被预测和利用?
这三项工作分别落在这条链路的不同位置:
* Humanoid Everyday 关注数据基础设施的建设。
* Psi-0 探索人形机器人基础动作能力的学习路径。
* PhysWorld 推进到世界模型,关注动作后的物理后果预测。
它们共同构建了一个数据底座、机器人原生模型和物理世界预测之间的系统闭环。这预示着,人形机器人能力的提升,可能不会仅仅依赖于模型规模的简单放大,而更需要这些环节的有效协同与系统性推进。
两个关键判断:
- 人形机器人需要一套为它重新设计的基础模型框架:机器人任务的核心是“在物理世界里把一个动作做对、做完”,这与纯粹的视觉或语言理解模型范式不同。Psi-0 的路线——先从人类数据借力,再通过机器人数据跨越 embodiment gap——正是这种“robotics-native”基础模型的体现。
- 世界模型最重要的价值是物理可执行性:对于机器人而言,世界模型能否帮助判断下一步怎么做,能否预测动作的物理后果(如物体是否会滑落、接触点是否成立),远比生成一段逼真的视频更重要。PhysWorld 正是朝着这个方向探索。
王越博士及其PSI Lab团队的这组工作,不仅在技术上取得了突破,更在研究方法论上为具身智能和人形机器人领域提供了深刻的启示。它们共同描绘了通往更强大、更通用人形机器人的清晰路径,预示着AI与物理世界的融合将迈入一个新纪元。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)