清华教授创业:以人为本的具身智能新范式
type
status
date
slug
summary
tags
category
icon
password
网址

随着人工智能技术的飞速发展,机器人正逐渐从科幻走向现实,预示着未来几年内,它们可能成为我们生活中的常伴。然而,在机器人即将走进家庭的背后,一个核心问题却长期被忽视:当前绝大多数具身智能模型的训练,都将“人”置于了缺席的地位。模型或许能学会精准抓取物体、执行指令,却鲜少能理解人类的情感、意图,以及在特定情境下“恰到好处”的交互时机与方式。
正是这一“人在哪里”的困境,吸引了两位杰出的学者——冯瑶和刘淼的目光。他们深知,具身智能若想真正融入人类的生活场景,就必须将对“人”的深刻理解融入模型设计之中。对物体的操作能力与对人的理解,应当同步推进,而非割裂发展。基于这一共识,他们联手创业,致力于打造一种全新的“以人为中心”(Human-Centric)的具身模型范式,旨在让机器人不仅能执行任务,更能理解人类的行为、意图、记忆乃至偏好,从而在真实的共处场景中建立起不可或缺的信任。
具身智能的“人”之困境:为何“人”如此重要?
长期以来,具身智能的研究焦点多集中于提升机器人的感知、规划和执行能力。例如,通过大量第三方视角数据训练模型识别物体、预测运动轨迹,或是利用第一视角数据学习模仿人类的操作。然而,这些方法往往将“人”视为环境中的一个变量或背景,而非核心的交互主体。
冯瑶教授,一位在人体数字化建模和行为理解领域拥有深厚造诣的学者,曾师从计算机视觉领域的重量级人物 Michael J. Black。她的研究路径始于“人”本身——如何在数字世界中精确重建人体形态、动作,以及如何从海量数据中理解人类行为。当她将这项能力带入机器人领域,开始尝试在物理世界中验证时,她敏锐地发现,仅仅学会“识别”或“操作”是不够的。一个机器人能否真正“做对”,关键在于它能否在与人交互时,展现出对人类状态和需求的理解。
刘淼教授,曾深度参与 Meta GenAI 在 Llama 3/4 等多模态大模型研发,并在佐治亚理工学院专注于第一视角视觉与具身感知研究。他的经验告诉他,即使是强大的大模型,在理解物理世界和人类意图方面仍有局限。他引用费曼的名言“我无法创造的东西,我就无法真正理解”,并将其反向应用于AI:模型能生成文本、图像,甚至视频,但不代表它真正理解了物理世界。真正的理解,体现在能否在物理世界中行动,并理解行为的后果,这正是具身智能的价值所在。然而,现实世界并非空无一物的物理空间,而是充满“人”的世界。大模型虽能识别动作、服饰,却难以捕捉情绪、意图和“心智理论”。当这些模型直接进入真实环境与人互动,其不稳定性将暴露无遗。
因此,“以人为中心”并非一个可选项,而是具身智能走向普及的必选项。它要求模型具备捕捉人类需求、推断复杂意图,乃至建立情感连接的能力。
关键技术探索:从第一视角到人机共融
冯瑶和刘淼教授的创业,正是对上述挑战的直接回应。他们的目标是构建一个能够深度理解“人”的具身基础模型。这其中涉及多项关键的技术探索:
第一视角数据与“具身性”的价值
刘淼教授强调了第一视角(Egocentric Vision)数据在具身智能中的不可替代性。相较于第三方视角,第一视角数据天然耦合了感知与动作,形成了“感知驱动动作、动作改变环境、环境反哺感知”的完整闭环,更贴近人类自身的感知和行为模式。长时间的第一视角视频,还能揭示人类的认知过程,如视线聚焦所隐含的意图、探索路径以及利用环境完成任务的方式,这对于机器人学习“探索与利用”的策略至关重要。例如,在厨房场景中,第三方视角可能只能识别“在洗菜”,而第一视角则能捕捉到手眼协调的精细动作,如具体洗哪个部位、如何控制水流,这对于机器人学习可执行的操作策略至关重要。
从数字人到物理世界:人体重建与行为理解的跨越
冯瑶教授的研究路径,从 DECA、PIXIE 等数字人体重建工作,延伸至语言模型与人形机器人控制。她的核心愿景是构建一个真正“像人一样存在和行动”的实体智能体。早期工作着重于构建有效的“人体表征”并从互联网数据中提取行为模式。然而,她意识到,在纯数字环境中,模型是否真正理解人类是难以评估的。因此,她转向机器人方向,将模型置于真实的物理系统中,让其与人发生交互。这一过程也促使她关注传统强化学习中被低估的“柔顺性”和“安全性”等与人交互的关键维度。
端到端 vs. 模块化:兼顾效率与可解释性的混合之道
在具身智能的架构设计上,冯瑶和刘淼认为“端到端 vs. 模块化”的争论可能是一个伪命题。他们主张一种混合路线:在高层保留明确的语义结构和可解释性,以便进行智能决策和任务切换(如用户临时改变叠衣服指令);而在底层控制(如抓取)则采用更接近端到端的优化方式,以兼顾效率。这种设计类似于人类神经系统,将“缓慢的社会认知”与“快速的本能控制”解耦,避免单一网络同时处理极难和极简单的问题。这种“语义插入”和动态决策的设计,其最大难点在于对“人”的深度理解,需要整合长期记忆、用户习惯及当前状态,这本质上是一个复杂的人类建模问题。
评测体系的“陷阱”与真实用户反馈的黄金标准
目前,具身智能领域面临一个巨大的“陷阱”——评测体系的不完善。缺乏统一的标准化 benchmark,导致实验成本高昂、可复现性差,甚至可能误导技术路线。冯瑶和刘淼认为,真正的评测标准应回归用户本身。当一个系统被用户实际使用时,用户的反馈才是衡量其优劣的根本标准。因此,他们更关注如何获取“真实世界”的数据,通过真实用户的使用来驱动模型的迭代,而非依赖“数据采集工厂”或“假分布”上的训练。
数据闭环:互联网数据、低成本采集与合成数据的协同
获取高质量、可规模化的第一视角和人机交互数据是巨大的挑战。他们的方案是:
1. 重建能力:利用互联网视频数据,通过高精度的“重建能力”(如人体姿态、动作、手部操作的3D行为信息),将其转化为可学习的数据源。
2. 低成本采集:在此基础上,设计采集环境和硬件系统,通过算法保证高质量重建。
3. 合成数据增强:将合成数据视为一种“数据增强器”,用于组合短视频片段,在物理约束下生成更长、更复杂的行为序列,帮助模型学习长时序结构。
从学术到创业:为何选择家庭场景?
冯瑶和刘淼的合作,源于对“具身智能大脑”问题的共同判断:一个能与人长期共处的系统,既需要强大的多模态感知,也必须深度理解“人”。他们早期的学术研究虽然路径不同(冯瑶侧重人体行为理解,刘淼侧重多模态融合与认知),但都围绕“人”展开。
选择创业,是因为要实现闭环迭代,需要大规模的真实部署,这超出了学术实验室的范畴。而选择家庭场景而非工业场景,源于他们更宏大的愿景:让机器人进入普通人的日常生活。工业场景虽然结构化、可预测,但人的参与较少,这与他们关注的核心——“人”——的本质需求不符。他们希望构建的是一个能够与人建立情感连接、赢得信任的智能体,这在家庭环境中具有更深远的意义。
他们的创业之路,不仅是技术的创新,更是对人机关系的深刻探索。通过将“以人为中心”的理念贯穿始终,冯瑶和刘淼正引领着具身智能走向一个更加温暖、更加智能的未来,一个机器人真正理解并融入人类社会的未来。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)