商汤「悟能」破局具身智能:世界模型如何连接虚拟与现实 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
随着人工智能(AI)的浪潮从ChatGPT引爆的数字语言世界,汹涌地拍向物理现实的彼岸,具身智能(Embodied AI)已然成为通往通用人工智能(AGI)之路上最受瞩目的新航道。从谷歌、华为到字节跳动,科技巨头纷纷布局,试图打造能与物理世界交互的智能体。然而,如何为这些机器人装上一个真正通用、智能的“大脑”,始终是业界的核心难题。
在此背景下,商汤科技联合创始人王晓刚提出的“世界模型”概念,及其落地的「悟能」具身智能平台,为我们揭示了一条极具潜力的路径:利用强大的世界模型,生成高质量、可泛化的数据,从而加速AI从数字空间进入物理世界。这不仅是技术的跃迁,更是对未来人工智能形态的一次深刻思考。

具身智能的“阿喀琉斯之踵”:数据困境与泛化难题

尽管人形机器人频频上演“高光时刻”,但其走向通用化的道路上遍布荆棘。商汤科技CTO王晓刚一针见血地指出,当前具身智能面临的最大瓶颈,并非硬件,而是数据
  • 数据匮乏且昂贵:与自动驾驶汽车在行驶中就能自然产生海量数据不同,机器人的数据采集大多依赖“遥操作”——由人类在背后控制机器人刻意完成任务。这种方式成本高昂,效率低下,难以规模化生产。
  • 泛化能力差:由于机器人本体、传感器配置千差万别,在一个机器人上采集的数据很难直接应用于另一个。换一个水杯、换一张桌子,甚至光线变化,都可能导致模型失效。
  • 仿真与现实的鸿沟:虽然仿真技术可以生成数据,但传统仿真与真实物理世界之间存在巨大差距(Sim-to-real Gap),导致在仿真环境中训练出的模型在现实中表现不佳。
这些问题共同构成了具身智能发展的“阿喀琉斯之踵”,仅仅依赖LLM(大语言模型)的语言能力远不足以解决。我们需要一种能深刻理解并模拟物理世界规律的“超级大脑”。

世界模型:从数字孪生到物理交互的“超级大脑”

“世界模型”(World Model)正是应对上述挑战的关键。它并非一个新概念,但在大模型时代被赋予了全新的能量。世界模型的核心目标是学习物理世界的内在规律、因果关系和交互法则,从而在内部构建一个可交互、可推演的“虚拟世界”。
商汤科技在这方面早有布局,其「开悟」世界模型率先在自动驾驶领域得到验证。王晓刚认为,汽车本质上就是一种高度复杂的机器人。通过世界模型,可以:
  1. 高效生成数据:针对一个棘手的驾驶场景,世界模型可以对其进行三维重建,并任意编辑天气、光照、车型、车速等变量,从而“举一反三”,生成成千上万个相似但不同的训练视频,极大降低数据采集成本。
  1. 保证时空一致性:与Sora等视频生成模型不同,应用于自动驾驶或机器人的世界模型对时空一致性要求极高。商汤的「开悟」模型能做到长达150秒的时空连续,并保证多个摄像头视角在物理空间上的绝对一致。
  1. 实现可控与实时交互:世界模型不仅能生成场景,还能对场景内容进行精确控制,并实现实时交互,这为强化学习和复杂任务规划提供了近乎真实的“沙盒”。
这种能力,正是具身智能“大脑”所梦寐以求的。

商汤「悟能」:不止于视觉,打造具身智能的通用“操作系统”

基于在「开悟」世界模型上的深厚积累,商汤顺势推出了「悟能」具身智能平台。它并非简单地将自动驾驶技术平移,而是旨在为整个机器人行业提供一个强大的、开放的“大脑”。
「悟能」平台的核心优势在于其独特的“造血”能力:
  • 海量3D资产:商汤过去在计算机视觉领域积累了超过10万个高质量的3D资产(人、物、场),为世界模型构建逼真的虚拟环境提供了坚实基础。
  • 多视角学习能力:平台创新性地支持第一视角和第三视角视频的同步生成与学习。这意味着机器人不仅能“看”到人类如何操作(第三视角),还能学习人类操作时的“体感”和视角(第一视角),从而更好地将人类行为映射到自身的动作上。
  • 整合多模态能力:「悟能」整合了商汤在自动驾驶中成熟的导航能力,以及在人机交互中领先的流式多模态大模型能力,为机器人赋予了流畅的移动、自然的对话和深刻的理解力。
王晓刚将「悟能」定位为“机器人的大脑”,通过SDK和API的形式,将这些核心能力赋能给机器人厂商。这是一种强强联合的策略:商汤提供最擅长的软件“大脑”,硬件厂商则专注于本体和运控,共同打造软硬一体的解决方案,加速AI变现的进程。

从汽车到家庭:AI如何真正走进物理世界?

具身智能的终极目标,是让AI成为像空气一样无处不在的“环境计算”的一部分,真正融入人类生活。王晓刚描绘了这样一幅蓝图:
  • 空间连接:机器人将成为连接家庭、工作场所和汽车这三大生活空间的核心枢纽。它能共享数据和记忆,在你离家时,车内AI能无缝接续你的需求;回到家中,家庭机器人又能继续为你服务。
  • 情感连接:未来的机器人将不仅仅是工具。凭借记忆能力和强大的交互模型,它们能够与人建立情感连接,成为陪伴老人、守护孩子的家庭成员,甚至形成新的人机社交网络。
  • 价值叠加:一个通用机器人可以完成多项任务,替代洗衣机、扫地机、空气净化器等多种单一功能的家电,其潜在的商业价值和想象空间是巨大的。
要实现这一切,一个强大的、通用的“大脑”是基础。商汤希望通过「悟能」平台,扮演好这个“大脑”的提供者角色,将其在视觉智能、大模型、大装置算力等方面的综合优势,转化为推动整个具身智能行业前进的强大动能。
总而言之,具身智能的赛道正变得空前拥挤,而真正的决胜点在于能否构建一个能理解并预测物理世界的“大脑”。商汤的「悟能」平台,以世界模型为核心,直击行业数据痛点,为AI从虚拟走向现实架起了一座关键的桥梁。想获取更多关于AGILLM的前沿AI新闻和深度分析,欢迎访问AI门户网站 https://aigc.bar,获取每日最新的AI日报和专业的Prompt教程。
Loading...

没有找到文章