机器人学会拧瓶盖:KineDex框架引领AI灵巧手迈向通用人工智能(AGI)
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)飞速发展的今天,我们见证了大模型(LLM)在语言和图像生成领域的惊人成就。然而,将这种智能赋予物理实体,让机器人像人一样灵巧地与世界互动,仍然是通往通用人工智能(AGI)道路上的一大挑战。近日,一篇即将发表于CoRL 2025的重磅研究为我们揭示了新的可能:来自同济、清华、上海交大等顶尖高校的研究团队提出了名为KineDex的全新框架,让机器人灵巧手“手把手”地学会了拧瓶盖、挤牙膏等一系列高难度精细操作。
这一突破性进展不仅是机器人学的一大步,也为我们描绘了AI技术融入日常生活的广阔前景。想了解更多前沿的AI资讯和技术解读,可以关注专业的AI门户网站AIGC.bar。
核心突破:KineDex的“手把手”示教新范式
当前,教会机器人执行需要精确力度控制的任务(例如拧紧一个松紧适中的瓶盖)极其困难。传统的遥操作方法,操作者缺乏真实的“手感”,导致数据采集效率低下且失败率高;而基于视频模仿学习的方法,则因人类与机器人手部结构的差异(即“形态差异”)以及无法获取关键的触觉信息而效果不佳。
KineDex框架的核心思想回归到了最古老也最有效的教学方式——手把手教学。
研究团队的硬件系统由一台Franka Emika机械臂和星动纪元的高性能灵巧手XHAND 1组成。其设计的精妙之处在于,操作者可以通过安装在灵巧手手指背侧的环形绑带,“穿上”这只机器手。在演示任务时,操作者可以直接引导灵巧手运动,所有接触物体时产生的力都会实时传递给操作者的手部,形成一种自然的、高保真的触觉反馈。
这种方式一举解决了两大难题:
1. 高质量数据采集:每一次示教都能同步记录下视觉图像、机械臂位姿、灵巧手关节角度、指尖压力和高密度触觉阵列信息,构成了一套完整、多模态的“专家数据”。
2. 直观高效:相比遥操作的间接控制,这种方式更符合人类直觉,大大降低了操作难度,使得高质量示教数据的采集过程变得轻松高效。
数据难题的智能解法:AI图像修复与策略学习
直接将“手把手”示教过程中录制的视频用于训练,会遇到一个棘手的问题:视频画面中必然会包含操作者的人手,这会严重干扰AI模型的学习。因为在机器人独立执行任务时,人手是不存在的,这种训练与推理阶段的数据分布差异(Distribution Shift)会导致模型性能急剧下降甚至完全失效。
为了解决这个“数据污染”问题,KineDex框架引入了一套巧妙的人工智能图像处理流程:
- 第一步:智能识别与分割。系统采用Grounded-SAM模型,这是一个强大的视觉分割大模型,能够精确地从视频的每一帧中识别并提取出操作者身体部位(主要是手和手臂)的掩码(Mask)。
- 第二步:AI“脑补”修复。随后,将原始视频帧和对应的掩码一同输入到ProPainter模型中。ProPainter是一种先进的视频修复(Inpainting)模型,它能智能地“脑补”出被人手遮挡的背景和物体区域,生成一版干净、无遮挡的视频。
经过这一系列处理,机器人获得了完美的“第一人称视角”学习素材。最终,学习策略模型以修复后的视觉信息和真实的触觉信息作为输入,预测出灵巧手需要执行的关节位置和接触力,并通过闭环的力控制器鲁棒地完成任务。
惊艳的实证效果:从拧瓶盖到挤牙膏
为了全面验证KineDex框架的性能,团队设计了九项极具挑战性的日常任务,包括抓取杯子、将牙膏挤到牙刷上、按压注射器以及备受关注的“拧瓶盖”。
实验结果令人振奋:
* 高成功率:KineDex在所有九项任务中的平均成功率高达74.4%,在抓取瓶子、杯子等相对简单的任务中成功率接近100%。
* 力控是关键:在消融实验中,一旦禁用力控模块,系统的平均成功率骤降至16.7%。机器人会因为施加的压力不足而频繁失败,证明了精确力反馈的重要性。
* 触觉不可或缺:在拧瓶盖、挤牙膏等高度依赖接触的任务中,移除触觉信息输入会导致成功率平均下降26.7%。
* 图像修复至关重要:如果不对示教视频进行图像修复,直接用带有人手的视频进行训练,所有任务的成功率均为0%,机器人会表现出完全无序的异常行为。
这些数据雄辩地证明了KineDex框架中每一个组件——手把手示教、触觉反馈、图像修复和力控策略——都是不可或缺的。
效率与体验双重飞跃:超越传统遥操作
KineDex不仅效果好,效率也极高。与传统的遥操作数据收集方式相比,KineDex展现出压倒性优势。
实验数据显示,在使用KineDex进行示教时,操作者的成功率接近100%,而遥操作的成功率仅为39%。这意味着用遥操作收集一条成功的示教数据需要反复尝试。在时间效率上,KineDex收集一次复杂任务(如按压注射器)的数据耗时仅为遥操作的50%,简单任务更是不到其三分之一。
用户研究也证实,所有参与者都认为KineDex的“手把手”方式比遥操作更直观、更高效,尤其是在处理复杂任务时。
结论
KineDex框架的提出,不仅仅是让机器人学会了“拧瓶盖”这项炫酷技能,更重要的是,它为机器人精细操作技能的学习提供了一套全新的、高效且可扩展的解决方案。通过巧妙地结合人类直觉示教与人工智能数据处理技术,KineDex攻克了长期以来困扰机器人学界的高质量、带触觉反馈的示教数据获取难题。
这一成果预示着,未来我们或许能像教孩子一样,手把手地教会机器人完成各种家务、装配甚至手术等复杂任务。这是AGI从数字世界走向物理世界的重要一步,也是人工智能技术真正实现“可用、好用”的生动体现。关注最新的AI日报和AI新闻,请访问AIGC.bar,获取关于OpenAI、ChatGPT、Claude等前沿技术的深度分析和Prompt使用技巧。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)