商汤「悟能」破局具身智能：世界模型如何连接虚拟与现实 | AI资讯

type

status

date

slug

summary

具身智能的“阿喀琉斯之踵”：数据困境与泛化难题

尽管人形机器人频频上演“高光时刻”，但其走向通用化的道路上遍布荆棘。商汤科技CTO王晓刚一针见血地指出，当前具身智能面临的最大瓶颈，并非硬件，而是数据。

数据匮乏且昂贵：与自动驾驶汽车在行驶中就能自然产生海量数据不同，机器人的数据采集大多依赖“遥操作”——由人类在背后控制机器人刻意完成任务。这种方式成本高昂，效率低下，难以规模化生产。

泛化能力差：由于机器人本体、传感器配置千差万别，在一个机器人上采集的数据很难直接应用于另一个。换一个水杯、换一张桌子，甚至光线变化，都可能导致模型失效。

仿真与现实的鸿沟：虽然仿真技术可以生成数据，但传统仿真与真实物理世界之间存在巨大差距（Sim-to-real Gap），导致在仿真环境中训练出的模型在现实中表现不佳。

这些问题共同构成了具身智能发展的“阿喀琉斯之踵”，仅仅依赖LLM（大语言模型）的语言能力远不足以解决。我们需要一种能深刻理解并模拟物理世界规律的“超级大脑”。

世界模型：从数字孪生到物理交互的“超级大脑”

“世界模型”（World Model）正是应对上述挑战的关键。它并非一个新概念，但在大模型时代被赋予了全新的能量。世界模型的核心目标是学习物理世界的内在规律、因果关系和交互法则，从而在内部构建一个可交互、可推演的“虚拟世界”。

商汤科技在这方面早有布局，其「开悟」世界模型率先在自动驾驶领域得到验证。王晓刚认为，汽车本质上就是一种高度复杂的机器人。通过世界模型，可以：

高效生成数据：针对一个棘手的驾驶场景，世界模型可以对其进行三维重建，并任意编辑天气、光照、车型、车速等变量，从而“举一反三”，生成成千上万个相似但不同的训练视频，极大降低数据采集成本。

保证时空一致性：与Sora等视频生成模型不同，应用于自动驾驶或机器人的世界模型对时空一致性要求极高。商汤的「开悟」模型能做到长达150秒的时空连续，并保证多个摄像头视角在物理空间上的绝对一致。

实现可控与实时交互：世界模型不仅能生成场景，还能对场景内容进行精确控制，并实现实时交互，这为强化学习和复杂任务规划提供了近乎真实的“沙盒”。

这种能力，正是具身智能“大脑”所梦寐以求的。

商汤「悟能」：不止于视觉，打造具身智能的通用“操作系统”

基于在「开悟」世界模型上的深厚积累，商汤顺势推出了「悟能」具身智能平台。它并非简单地将自动驾驶技术平移，而是旨在为整个机器人行业提供一个强大的、开放的“大脑”。

「悟能」平台的核心优势在于其独特的“造血”能力：

海量3D资产：商汤过去在计算机视觉领域积累了超过10万个高质量的3D资产（人、物、场），为世界模型构建逼真的虚拟环境提供了坚实基础。

多视角学习能力：平台创新性地支持第一视角和第三视角视频的同步生成与学习。这意味着机器人不仅能“看”到人类如何操作（第三视角），还能学习人类操作时的“体感”和视角（第一视角），从而更好地将人类行为映射到自身的动作上。

整合多模态能力：「悟能」整合了商汤在自动驾驶中成熟的导航能力，以及在人机交互中领先的流式多模态大模型能力，为机器人赋予了流畅的移动、自然的对话和深刻的理解力。

王晓刚将「悟能」定位为“机器人的大脑”，通过SDK和API的形式，将这些核心能力赋能给机器人厂商。这是一种强强联合的策略：商汤提供最擅长的软件“大脑”，硬件厂商则专注于本体和运控，共同打造软硬一体的解决方案，加速AI变现的进程。

从汽车到家庭：AI如何真正走进物理世界？

具身智能的终极目标，是让AI成为像空气一样无处不在的“环境计算”的一部分，真正融入人类生活。王晓刚描绘了这样一幅蓝图：

空间连接：机器人将成为连接家庭、工作场所和汽车这三大生活空间的核心枢纽。它能共享数据和记忆，在你离家时，车内AI能无缝接续你的需求；回到家中，家庭机器人又能继续为你服务。

情感连接：未来的机器人将不仅仅是工具。凭借记忆能力和强大的交互模型，它们能够与人建立情感连接，成为陪伴老人、守护孩子的家庭成员，甚至形成新的人机社交网络。

价值叠加：一个通用机器人可以完成多项任务，替代洗衣机、扫地机、空气净化器等多种单一功能的家电，其潜在的商业价值和想象空间是巨大的。

要实现这一切，一个强大的、通用的“大脑”是基础。商汤希望通过「悟能」平台，扮演好这个“大脑”的提供者角色，将其在视觉智能、大模型、大装置算力等方面的综合优势，转化为推动整个具身智能行业前进的强大动能。

总而言之，具身智能的赛道正变得空前拥挤，而真正的决胜点在于能否构建一个能理解并预测物理世界的“大脑”。商汤的「悟能」平台，以世界模型为核心，直击行业数据痛点，为AI从虚拟走向现实架起了一座关键的桥梁。想获取更多关于AGI、LLM的前沿AI新闻和深度分析，欢迎访问AI门户网站 https://aigc.bar，获取每日最新的AI日报和专业的Prompt教程。