清华教授创业：以人为本的具身智能新范式

type

status

date

slug

summary

具身智能的“人”之困境：为何“人”如此重要？

长期以来，具身智能的研究焦点多集中于提升机器人的感知、规划和执行能力。例如，通过大量第三方视角数据训练模型识别物体、预测运动轨迹，或是利用第一视角数据学习模仿人类的操作。然而，这些方法往往将“人”视为环境中的一个变量或背景，而非核心的交互主体。

冯瑶教授，一位在人体数字化建模和行为理解领域拥有深厚造诣的学者，曾师从计算机视觉领域的重量级人物 Michael J. Black。她的研究路径始于“人”本身——如何在数字世界中精确重建人体形态、动作，以及如何从海量数据中理解人类行为。当她将这项能力带入机器人领域，开始尝试在物理世界中验证时，她敏锐地发现，仅仅学会“识别”或“操作”是不够的。一个机器人能否真正“做对”，关键在于它能否在与人交互时，展现出对人类状态和需求的理解。

刘淼教授，曾深度参与 Meta GenAI 在 Llama 3/4 等多模态大模型研发，并在佐治亚理工学院专注于第一视角视觉与具身感知研究。他的经验告诉他，即使是强大的大模型，在理解物理世界和人类意图方面仍有局限。他引用费曼的名言“我无法创造的东西，我就无法真正理解”，并将其反向应用于AI：模型能生成文本、图像，甚至视频，但不代表它真正理解了物理世界。真正的理解，体现在能否在物理世界中行动，并理解行为的后果，这正是具身智能的价值所在。然而，现实世界并非空无一物的物理空间，而是充满“人”的世界。大模型虽能识别动作、服饰，却难以捕捉情绪、意图和“心智理论”。当这些模型直接进入真实环境与人互动，其不稳定性将暴露无遗。

因此，“以人为中心”并非一个可选项，而是具身智能走向普及的必选项。它要求模型具备捕捉人类需求、推断复杂意图，乃至建立情感连接的能力。

关键技术探索：从第一视角到人机共融

冯瑶和刘淼教授的创业，正是对上述挑战的直接回应。他们的目标是构建一个能够深度理解“人”的具身基础模型。这其中涉及多项关键的技术探索：

第一视角数据与“具身性”的价值

刘淼教授强调了第一视角（Egocentric Vision）数据在具身智能中的不可替代性。相较于第三方视角，第一视角数据天然耦合了感知与动作，形成了“感知驱动动作、动作改变环境、环境反哺感知”的完整闭环，更贴近人类自身的感知和行为模式。长时间的第一视角视频，还能揭示人类的认知过程，如视线聚焦所隐含的意图、探索路径以及利用环境完成任务的方式，这对于机器人学习“探索与利用”的策略至关重要。例如，在厨房场景中，第三方视角可能只能识别“在洗菜”，而第一视角则能捕捉到手眼协调的精细动作，如具体洗哪个部位、如何控制水流，这对于机器人学习可执行的操作策略至关重要。

从数字人到物理世界：人体重建与行为理解的跨越

冯瑶教授的研究路径，从 DECA、PIXIE 等数字人体重建工作，延伸至语言模型与人形机器人控制。她的核心愿景是构建一个真正“像人一样存在和行动”的实体智能体。早期工作着重于构建有效的“人体表征”并从互联网数据中提取行为模式。然而，她意识到，在纯数字环境中，模型是否真正理解人类是难以评估的。因此，她转向机器人方向，将模型置于真实的物理系统中，让其与人发生交互。这一过程也促使她关注传统强化学习中被低估的“柔顺性”和“安全性”等与人交互的关键维度。

端到端 vs. 模块化：兼顾效率与可解释性的混合之道

在具身智能的架构设计上，冯瑶和刘淼认为“端到端 vs. 模块化”的争论可能是一个伪命题。他们主张一种混合路线：在高层保留明确的语义结构和可解释性，以便进行智能决策和任务切换（如用户临时改变叠衣服指令）；而在底层控制（如抓取）则采用更接近端到端的优化方式，以兼顾效率。这种设计类似于人类神经系统，将“缓慢的社会认知”与“快速的本能控制”解耦，避免单一网络同时处理极难和极简单的问题。这种“语义插入”和动态决策的设计，其最大难点在于对“人”的深度理解，需要整合长期记忆、用户习惯及当前状态，这本质上是一个复杂的人类建模问题。

评测体系的“陷阱”与真实用户反馈的黄金标准

目前，具身智能领域面临一个巨大的“陷阱”——评测体系的不完善。缺乏统一的标准化 benchmark，导致实验成本高昂、可复现性差，甚至可能误导技术路线。冯瑶和刘淼认为，真正的评测标准应回归用户本身。当一个系统被用户实际使用时，用户的反馈才是衡量其优劣的根本标准。因此，他们更关注如何获取“真实世界”的数据，通过真实用户的使用来驱动模型的迭代，而非依赖“数据采集工厂”或“假分布”上的训练。

数据闭环：互联网数据、低成本采集与合成数据的协同

获取高质量、可规模化的第一视角和人机交互数据是巨大的挑战。他们的方案是： 1. 重建能力：利用互联网视频数据，通过高精度的“重建能力”（如人体姿态、动作、手部操作的3D行为信息），将其转化为可学习的数据源。 2. 低成本采集：在此基础上，设计采集环境和硬件系统，通过算法保证高质量重建。 3. 合成数据增强：将合成数据视为一种“数据增强器”，用于组合短视频片段，在物理约束下生成更长、更复杂的行为序列，帮助模型学习长时序结构。

从学术到创业：为何选择家庭场景？

冯瑶和刘淼的合作，源于对“具身智能大脑”问题的共同判断：一个能与人长期共处的系统，既需要强大的多模态感知，也必须深度理解“人”。他们早期的学术研究虽然路径不同（冯瑶侧重人体行为理解，刘淼侧重多模态融合与认知），但都围绕“人”展开。

选择创业，是因为要实现闭环迭代，需要大规模的真实部署，这超出了学术实验室的范畴。而选择家庭场景而非工业场景，源于他们更宏大的愿景：让机器人进入普通人的日常生活。工业场景虽然结构化、可预测，但人的参与较少，这与他们关注的核心——“人”——的本质需求不符。他们希望构建的是一个能够与人建立情感连接、赢得信任的智能体，这在家庭环境中具有更深远的意义。

他们的创业之路，不仅是技术的创新，更是对人机关系的深刻探索。通过将“以人为中心”的理念贯穿始终，冯瑶和刘淼正引领着具身智能走向一个更加温暖、更加智能的未来，一个机器人真正理解并融入人类社会的未来。