InFOM:引爆RL预训练革命,性能提升20倍!| AI门户
type
status
date
slug
summary
tags
category
icon
password
网址
引言:强化学习迎来“大模型时刻”
在人工智能(AI)领域,"预训练-微调"(Pre-train, Fine-tune)无疑是过去几年最成功的范式。从ChatGPT这类大型语言模型(LLM)到计算机视觉领域的各种基础模型,这一模式通过在海量数据上进行一次大规模预训练,极大地降低了后续特定任务的开发门槛和数据需求。然而,这一革命性的范式在强化学习(Reinforcement Learning, RL)领域的应用却步履维艰。
强化学习的核心挑战在于需要对“时间”和“意图”进行复杂的推理,这远比处理静态的文本或图像要困难。智能体不仅要预测一个动作的长期后果,还要能从混杂的数据中理解其背后的目标。最近,来自加州大学伯克利分校的华人团队,包括博士生Chongyi Zheng和AI大牛Sergey Levine,提出了名为InFOM(意向条件流占用模型)的全新方法,似乎为RL的预训练难题找到了突破口,引发了AI社区的广泛关注。
RL预训练的困境与InFOM的破局之道
传统的强化学习算法通常高度依赖奖励信号,这使得在没有明确奖励的通用数据集上进行预训练变得异常困难。为了解决这个问题,学界主要探索了两条路径:世界模型(World Models)和占据模型(Occupancy Models)。
世界模型试图构建一个环境的动态模拟器,但由于误差会随着时间的推移而累积,其在长时序任务中的表现往往不尽如人意。占据模型则专注于预测未来可能达到的状态,虽然在预测上表现更优,但训练过程复杂,且常常忽略了驱动行为的根本原因——意图。
InFOM的巧妙之处在于,它将近年来在生成式AI领域大放异彩的“流匹配”(Flow Matching)技术与占据模型相结合,创造性地解决了意图推理这一核心难题。它不再仅仅预测“下一步会发生什么”,而是能够根据推断出的潜在“意图”,来预测未来一系列可能的状态分布。这标志着RL从被动预测转向了主动的、有目标的推理。
深入解析:InFOM如何“读懂”用户意图?
InFOM的核心机制可以理解为一种高明的“读心术”。它并不需要数据被标记上具体的任务或奖励,而是假设在收集到的不同轨迹数据背后,存在着不同的潜在意图。
模型的具体工作流程如下:
- 意图编码:通过一个编码器,模型从连续的状态-动作对中推断出一个潜在的意图变量
z
。这个意图z
可以被看作是智能体执行某个任务时的“内心想法”或“目标”的高度抽象。
- 意图条件下的未来预测:基于推断出的意图
z
,模型利用一个基于流匹配的解码器来预测未来状态的占据分布。这意味着,给定当前状态和意图,InFOM可以生成一整片未来可能到达的状态“云图”,而不是单一的轨迹。
- 时序一致性:为了让预测能够贯穿整个轨迹,研究者还引入了一种创新的时序差分流匹配损失函数。这使得模型能够像动态规划一样,将单步的预测串联起来,实现对长时序未来的精准把握。
通过这种方式,InFOM在预训练阶段就构建了一个强大的、理解意图的生成模型。在下游任务微调时,它可以利用这个模型估算出一系列与不同意图相关的Q函数,并通过策略改进方法,高效地抽取出最优策略。
惊人成果:性能提升20倍的实证
理论上的优雅必须通过实践来检验。InFOM在多个高难度的RL基准测试中(如ExORL和OGBench)展现了惊人的实力,其结果远超现有的八种基线方法。
最引人注目的成果是在复杂的Jaco机械臂操作任务上,InFOM相较于之前的最佳方法,取得了高达20倍的性能提升!在更具挑战性的OGBench基准中,它的成功率比次优方法高出36%。更令人印象深刻的是,即便直接使用原始的RGB图像作为输入,InFOM的性能也超越了最强的基线31%。
取得如此显著优势的原因在于,传统方法在面对奖励稀疏(即大部分时间都得不到任何反馈)的任务时,很难进行有效探索。而InFOM强大的生成模型和意图推理能力,使其能够更高效地利用数据中那些罕见但宝贵的高奖励状态,从而快速学习到有效的策略。
结论:开启RL的AGI新范式
InFOM的出现,不仅仅是一次算法上的改进,更可能是一次范式上的革新。它证明了在没有奖励信号的情况下,通过对“意图”这一核心要素的巧妙建模,强化学习同样可以从大规模、无标签的数据中学习到通用且强大的世界知识。
这项由华人青年学者主导的研究,为强化学习通往通用人工智能(AGI)的道路铺上了一块坚实的基石。它让人们看到了RL领域“GPT时刻”的曙光:未来,我们或许可以预训练一个通用的RL基础模型,然后通过简单的微调,就能让它适应驾驶、导航、操作等成千上万种具体任务。
想了解更多关于AI、大模型、AGI的前沿资讯和深度解读,欢迎访问AI门户网站AIGC.bar,获取最新的AI新闻和技术动态。
Loading...