专访白寅岐：溯因式世界模型，如何让AI读懂物理规律？

type

status

date

slug

summary

溯因式世界模型：AI理解世界的逻辑重构

大语言模型虽然通过海量数据掌握了人类语言，但其本质仍是“符号生成”。正如白寅岐所言，机器若想真正理解这个世界，不能仅仅依靠对文本的预测，更需要理解物理规律。

“溯因式世界模型”的核心逻辑在于：观测外在世界状态，反推内在演化规律，再用这些规律去模拟预测未来。这不仅仅是简单的视频预测，而是试图让模型学会像物理学家一样思考。例如，模型不应只记住“苹果下落”的轨迹，而应抽象出“重力”这一底层规律。一旦掌握了物理因果，无论场景如何变化，模型都能实现泛化，这正是当前大模型向物理世界迈进的核心门槛。

隐空间与因果：技术路线的差异化突围

在当前世界模型的三大主流路线中（2D视频生成、3D空间建模、隐空间表征），白寅岐的白泽科技选择了基于JEPA（Joint-Embedding Predictive Architecture）的隐空间建模逻辑，并在此基础上叠加了“因果学习层”。

这种选择的精妙之处在于平衡了计算效率与理解深度：

隐空间学习： 通过编码器过滤掉冗余的像素信息，将复杂世界抽象为简洁的高维向量。这不仅极大地降低了算力需求，还使得模型能够聚焦于核心特征。

因果推理： 这是白泽路线的“杀手锏”。单纯的隐空间表征只能回答“是什么”，而叠加因果逻辑后，模型能够回答“为什么”。通过在隐空间中挖掘因果规律，模型对未来状态的预测不再是概率性的猜测，而是基于物理逻辑的推演。

降本增效：让世界模型实现最快落地

技术价值的最终体现，在于其能否在工业场景中真正起效。白寅岐强调，世界模型的落地不应是一场昂贵的“资源消耗战”。

白泽科技提出的“无标注视频Scaling”路线，有效地解决了行业痛点： 1. 预训练阶段： 利用海量无标注互联网视频进行训练，无需昂贵的人工标注，极大地降低了数据成本。 2. 后训练阶段： 仅在对齐阶段使用少量高质量真机数据，通过物理奖励模型进行校准。

这种“最快、最省”的落地策略，使得企业不必投入巨额成本即可快速部署智能系统。对于正在探索AI变现或寻求人工智能解决方案的行业参与者来说，这种低成本、高可用的技术路径具有极强的吸引力。

从学术到产业：年轻创业者的技术信仰

白寅岐的经历颇具代表性：从科大实验室的顶会论文作者，到华为火花奖得主，再到创立白泽科技。这种转变不仅源于对技术前沿的敏锐嗅觉，更源于对“产品才是技术价值最直观证明”的坚持。

在AI日报频频刷新的当下，许多研究者容易迷失在Benchmark的数字游戏中。白寅岐选择了一条更为艰巨的道路——将学术成果转化为解决实际问题的工程能力。他认为，世界模型不会诞生于纯粹的论文，而会诞生于真实世界的每一次交互中。

结语

世界模型的竞争才刚刚开始。无论是OpenAI的持续演进，还是像白泽科技这样的本土创业团队的创新突围，都指向了同一个终极目标：让机器不仅能“说”出世界，更能“看懂”并“改变”世界。

随着具身智能与物理世界交互的深入，我们有理由期待，通过因果推理与高效Scaling，AI将从数字世界的“聊天机器人”进化为物理世界的“智慧伙伴”。对于关注ChatGPT及Claude等前沿模型动态的科技从业者而言，持续关注世界模型的发展，或许就是在把握下一代AI时代的脉搏。