南加州王越PSI Lab：CVPR三奖揭示AI机器人新路径

type

status

date

slug

summary

PSI Lab的崛起之路与研究定位

王越博士于2022年从MIT EECS博士毕业，并在加入USC计算机系担任助理教授并创办PSI Lab之前，曾是NVIDIA自动驾驶研究组的研究科学家。他的学术生涯已积累了诸如点云理解经典工作DGCNN、DCP，以及自动驾驶3D感知方法DETR3D等重要成果。DGCNN更是成为点云深度学习领域不可绕过的里程碑。

PSI Lab成立虽短，但其学生团队的研究产出却异常活跃，不仅获得了包括NVIDIA Fellowship、Qualcomm Fellowship在内的多项知名奖学金和研究资助，本科生也获得了CRA杰出本科研究者等荣誉。这种高密度、高质量的产出，对于一个年轻的实验室而言，实属不易。

PSI Lab的研究定位并非单纯的计算机视觉（CV）或机器人控制，而是巧妙地将3D世界理解、物理世界感知与真实机器人任务置于交叉点上。其研究方向涵盖了当前最热门的人形机器人、灵巧操作、从人类视频学习机器人策略，以及面向实际部署的数据和学习系统。

CVPR 2026三项大奖：具身智能的三个关键环节

在今年的CVPR 2026具身智能Workshop上，PSI Lab及其合作者凭借三项突破性工作赢得了三项大奖，它们分别是：

Psi-0: 获得3D-LLM/VLA Workshop Best Paper。

PhysWorld: 获得3D-LLM/VLA Workshop Best Paper Runner-up。

Humanoid Everyday: 获得Embodied AI Workshop (EAI) Best Paper。

这三项工作并非孤立的成果，而是共同指向了当前人形机器人发展最迫切的三个环节，并构成了一条相对完整的技术路径：

数据基础 (Humanoid Everyday)：解决开放世界人形机器人的日常操作数据收集与评测基准问题。

基础模型框架 (Psi-0)：训练一个能够迁移到人形机器人身体上的基础动作模型。

物理世界预测 (PhysWorld)：让模型不仅能“看懂”世界，还能预测动作的物理后果。

## Psi-0：构建人形机器人的通用基础模型

Psi-0 (Ψ₀: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation) 的核心目标是解决人形机器人的 loco-manipulation 问题，即结合移动与操作的任务，如推车、递送、开水龙头等。这类任务更贴近人形机器人的未来实际应用，也远比固定的桌面操作复杂。

过去，一种思路是将人类视频、机器人轨迹等数据混合训练。然而，人类与人形机器人之间的“具身鸿沟”（embodiment gap）——即身体结构、运动方式、关节范围的差异——使得直接迁移存在挑战。

Psi-0 采用了分阶段训练的创新范式： * 第一步（预训练）: 利用约829小时的第一人称人类视频（如EgoDex数据集）进行预训练。第一人称视角提供了丰富的操作先验，如手部接近物体、物体移动、视野变化等，这些数据易于规模化采集，远超真机示教数据。 * 第二步（后训练）: 使用约31小时的人形机器人轨迹数据（如Humanoid Everyday）进行后训练。这一阶段的关键是将预训练中学到的操作先验，精确对齐到人形机器人的身体结构、动作空间和实际控制约束上。 * 第三步（适配）: 利用少量目标任务数据进行微调。

Psi-0 的意义在于，它将人形机器人基础模型的训练问题分解为清晰的阶段：先从大规模、易获取的人类数据中学习通用的交互先验，再通过机器人原生数据将这些先验转化为可执行的动作。这种数据组织和阶段性学习的策略，是构建通用人形机器人能力的关键。

## PhysWorld：让世界模型具备物理可执行性

PhysWorld (Robot Learning from a Physical World Model) 旨在构建一个真正服务于机器人的世界模型。传统的世界模型常以视频预测或生成为主，生成逼真的未来视频。然而，对机器人而言，视觉上的合理性远不够，更重要的是模型能否理解和预测动作的物理后果。

PhysWorld 的创新在于，它将视频生成、物理世界重建和机器人策略学习连接起来，超越了单纯的视觉预测。其流程包括： 1. 根据图像和任务指令生成任务相关视频。 2. 从视频中重建背后的以物体为中心 (object-centric) 的物理世界表示。 3. 通过 object-centric residual reinforcement learning，将视觉预测转化为机器人可执行的轨迹，并进行物理层面的修正，使其符合机器人动力学和环境约束。

PhysWorld 真正关心的是physical actionability——即世界模型预测的未来是否能转化为机器人实际可执行的动作。只有当这些预测能够进入机器人训练和控制闭环，世界模型才真正具备服务于机器人的价值。它表明，机器人所需的世界模型，不是生成最漂亮的视频，而是预测最“有用”的未来。

## Humanoid Everyday：开放世界人形操作的数据与评测底座

Humanoid Everyday (A Comprehensive Robotic Dataset for Open-World Humanoid Manipulation) 是一个面向开放世界人形操作的数据集和评测平台。它解决了人形机器人学习在数据基础设施方面面临的基础性问题：如何构建覆盖真实场景、复杂任务和多模态感知的数据集。

与固定机械臂不同，人形机器人需要处理更开放、更复杂的任务，涉及移动、多臂协同、长程执行以及与复杂环境的交互。Humanoid Everyday 提供了260个任务、7类任务、1.03万条轨迹、超过300万帧数据，覆盖RGB、深度、LiDAR、触觉和自然语言标注等多种模态。

更重要的是，它还提供了一个云端评测平台。机器人学习长期面临评测难题，不同研究因环境、任务定义差异而难以直接比较。Humanoid Everyday 通过标准化评测，为模型能力提供了一个稳定的比较坐标，使研究者能更公平地评估不同方法的泛化能力和鲁棒性。

Humanoid Everyday 的价值在于，它不仅提供了规模化的数据，更建立了一个可训练、可评测、可复现的研究框架，为开放世界人形操作的研究奠定了坚实基础。

数据、模型与物理预测的系统闭环

PSI Lab的这三项工作，虽然对象不同，但共同指向了人形机器人发展的一个核心问题链条：数据如何构建？能力如何学习？动作后果如何被预测和利用？

这三项工作分别落在这条链路的不同位置： * Humanoid Everyday 关注数据基础设施的建设。 * Psi-0 探索人形机器人基础动作能力的学习路径。 * PhysWorld 推进到世界模型，关注动作后的物理后果预测。

它们共同构建了一个数据底座、机器人原生模型和物理世界预测之间的系统闭环。这预示着，人形机器人能力的提升，可能不会仅仅依赖于模型规模的简单放大，而更需要这些环节的有效协同与系统性推进。

两个关键判断：

人形机器人需要一套为它重新设计的基础模型框架：机器人任务的核心是“在物理世界里把一个动作做对、做完”，这与纯粹的视觉或语言理解模型范式不同。Psi-0 的路线——先从人类数据借力，再通过机器人数据跨越 embodiment gap——正是这种“robotics-native”基础模型的体现。

世界模型最重要的价值是物理可执行性：对于机器人而言，世界模型能否帮助判断下一步怎么做，能否预测动作的物理后果（如物体是否会滑落、接触点是否成立），远比生成一段逼真的视频更重要。PhysWorld 正是朝着这个方向探索。

王越博士及其PSI Lab团队的这组工作，不仅在技术上取得了突破，更在研究方法论上为具身智能和人形机器人领域提供了深刻的启示。它们共同描绘了通往更强大、更通用人形机器人的清晰路径，预示着AI与物理世界的融合将迈入一个新纪元。