商汤林达华深度解读:AI大模型如何从Words进化到Worlds?
type
status
date
slug
summary
tags
category
icon
password
网址

在过去的一年里,人工智能领域似乎陷入了一种“参数竞赛”的怪圈。从OpenAI到谷歌,再到国内的众多大厂,大家都在试图通过堆叠算力、增加数据量来让模型变得更聪明。然而,随着GPT-4等顶尖模型分数的提升逐渐边际递减,一个关键问题浮出水面:单纯依靠Scaling Law(缩放定律)的语言模型,真的能通向通用人工智能(AGI)吗?
近日,商汤科技联合创始人、首席科学家林达华在一次深度对话中给出了否定的答案,并提出了一个新的进化方向:从“Words”(语言)到“Worlds”(世界)。与此同时,商汤发布了全新的空间智能模型SenseNova-SI,在多项基准测试中超越了李飞飞团队的Cambrian-S,用实际行动宣告了AI技术范式的剧烈震荡。本文将深入解读这一变革背后的逻辑,以及它对未来AI发展的深远影响。
告别单纯的“大力出奇迹”,回归科研本质
过去三年,AI行业经历了一场狂飙突进的野蛮生长。只要GPU足够多、数据足够大,模型能力似乎就能无限增长。但到了2024年下半年,这种“大力出奇迹”的模式开始显露疲态。虽然榜单上的跑分还在刷新,但带给用户的惊艳感却在迅速消退。
林达华一针见血地指出,单纯依靠Scale的主流范式已经触碰到了天花板。现在的顶尖大模型虽然在数学、编程上接近人类专家水平,但在理解物理世界、处理三维空间关系上,可能连几岁的孩童都不如。正如OpenAI前首席科学家Ilya Sutskever所呼吁的“Back to Research”,林达华也认为,现在的路必须回归科研本质。未来的AGI绝不应只是一个活在文本逻辑里的聊天机器人,而必须是一个能够理解物理世界、具有多感官能力的世界模型。
现在的多模态模型:睁眼瞎的“博学家”
为什么现有的多模态大模型在处理空间任务时表现不佳?林达华用了一个极其生动的比喻:现在的模型就像是一个在黑暗中闭眼学习了十年的盲人。
即便它读了万卷书,逻辑思维严密,但当它突然睁开眼看世界时,第一反应是用书本里的语义概念去硬套眼前的事物。例如,当你给模型一张只有4根手指的人手图片时,它依然会自信地回答“5根”,因为它大脑里的先验知识(手有5根手指)覆盖了眼睛看到的真实像素。
这种现象的根源在于传统多模态架构的“拼接式”设计。通常是一个视觉编码器(Vision Encoder)加上一个大语言模型(LLM)。视觉信号在转化为语言Token的过程中,大量的空间细节、三维结构和物理规律被降维、甚至阉割了。这就导致模型虽然能拿数学金牌,却连简单的积木都搭不明白。
商汤NEO架构:原生多模态的彻底革新
为了解决这一痛点,商汤选择了“原生多模态”这条更难啃的路,并开源了NEO架构及基于此架构的SenseNova-SI模型。
所谓的原生多模态,不再是“视觉眼睛+语言大脑”的简单拼接。在NEO架构中,从模型最底层的Transformer Block开始,每一个神经元都能同时处理视觉和语言信号。视觉Token和文本Token不再是翻译关系,而是混合输入,通过专门设计的混合注意力机制(Mixed Attention),让模型既能参考上下文,又能实时“回头看”图像的原始特征。
为了让模型真正理解空间,商汤团队还引入了“跨视角预测”训练方法——给模型看物体的正面,让它预测侧面和背面的样子。这种训练方式让数据效率提升了10倍,SenseNova-SI仅用同类模型10%的数据就达到了SOTA水平,不仅超越了李飞飞团队的Cambrian-S,更在空间推理和幻觉抑制上表现优异。
击穿工业红线:从Demo炫技到生产力落地
技术再先进,如果不能落地,也只是实验室里的玩具。林达华反复强调“工业红线”的概念:任何技术,如果使用成本高于创造的价值,就没过红线。
目前大模型落地最大的障碍是“太贵、太慢”。特别是在视频生成领域,虽然Sora等模型效果惊艳,但极高的推理成本和延迟限制了其大规模商用。为此,商汤在落地应用上进行了极致优化。以其最新的实时语音驱动数字人产品SekoTalk为例,团队利用“算法蒸馏”技术,将扩散模型的推理步数从100步压缩到了4步,实现了64倍的速度提升。
这意味着,未来只需要一张消费级显卡,就能实时生成高质量的数字人视频。从SenseNova-SI的底层架构创新,到SekoTalk的工程化落地,商汤展示了一条清晰的“双轮驱动”路径:一手抓原始创新,一手抓落地价值。
结语:AI的未来在“行万里路”
从Words到Worlds,不仅仅是一个口号,更是AI技术发展的必然趋势。在这场宏大的迁徙中,中国拥有全世界最丰富的场景和最完整的工业体系,这片土壤天生适合培育能与物理世界深度交互的AI。
对于想要投身AI浪潮的年轻人,林达华的建议是:不要只盯着拥挤的大语言模型赛道卷。具身智能、AI for Science、工业制造等领域,才是未来广阔的蓝海。智能不只有语言,AI的未来在于从读万卷书进化到行万里路。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)