万亿参数RL训练成本暴降90%:DeepSeek这一战引发的大模型算力革命

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
2025年,AI大模型的战场正在经历一场静悄悄但剧烈的范式转移。正如许多关注 AI资讯 的从业者所察觉的那样,单纯依赖预训练(Pre-training)堆砌数据的边际收益正在急剧下降。DeepSeek V3.2的崛起揭示了一个新趋势:强化学习(RL)已不再是锦上添花,而是成为了大模型进化的主战场。
然而,对于大多数团队而言,在万亿参数(1T)级别的模型上进行全参数RL训练,是一场不仅耗时而且极其“烧钱”的噩梦。通常这需要数千张顶级GPU,意味着只有极少数巨头拥有入场券。但在 AIGC.BAR 等前沿 AI门户 持续关注的技术浪潮中,Mind Lab团队(Macaron AI背后的力量)刚刚投下了一枚重磅炸弹:他们通过LoRA技术,成功将万亿参数模型的RL训练算力消耗降低了90%。

强化学习:大模型进化的新引擎与拦路虎

为什么RL变得如此重要?从DeepSeek到OpenAI的o系列,再到Claude的推理能力提升,背后都离不开大规模强化学习的支持。RL能够让模型从简单的“预测下一个token”进化为具备多步推理能力、能使用工具并理解长程反馈的智能体(Agent)。
但在万亿参数的MoE(混合专家)模型上跑RL,面临着巨大的成本墙。Mind Lab的研究指出,传统方法不仅资源垄断,而且效率极低。为了打破这一局面,他们提出了一种结合LoRA(低秩适配)与MoE混合并行引擎的全新方案。

64张H800搞定万亿参数:Kimi K2实战验证

Mind Lab没有停留在理论层面,而是直接在Kimi K2这一万亿参数MoE模型上进行了验证。Kimi K2拥有1.04T的总参数量,是一个典型的庞然大物。
通过在Dense层和Expert层引入LoRA适配器(Rank=128),并采用GRPO算法,他们仅使用了8个节点共64张NVIDIA H800 GPU,就完成了以往需要上千张卡才能完成的训练任务。结果令人振奋:
  • 成本骤降:GPU消耗仅为全参数RL的10%。
  • 训练稳定:Reward曲线稳步上升,未出现大模型训练常见的不收敛或崩溃。
  • 能力保留:在提升特定任务表现的同时,基座模型的通用能力并未退化。

攻克MoE架构的三大并行难题

LLM 领域,直接将LoRA套用到万亿MoE模型上并非易事。MoE架构的复杂性带来了三个主要挑战:路由不均衡导致的效率低下、跨设备通信压力的爆炸、以及并行布局的复杂性。
Mind Lab的解决方案是设计了一套“混合协同并行引擎”。他们并未将并行策略视为固定的布局,而是将其视为可调度的资源。这套引擎统一调度了四种并行方式:
  1. Tensor并行:处理节点内的大矩阵计算。
  1. Pipeline并行:将模型层分摊到不同节点。
  1. Expert并行:专门处理MoE专家的分片与路由。
  1. Sequence并行:应对长上下文场景。
通过这种精细的调度,加上LoRA仅占全参数10%的通信量,RL信号得以在全局和专家层面上高效传导,彻底解决了“带不动”的问题。

截断重要性采样:解决推理与训练的后端割裂

在大模型工程实践中,生成轨迹(Rollout)和更新参数(Training)往往使用不同的后端引擎(例如vllm用于推理,Megatron用于训练)。这种分布不匹配在万亿参数规模下会被放大,导致策略更新失稳。
Mind Lab引入了“截断重要性采样比率”(Truncated Importance Ratio)。这是一个数学上的修正技巧,通过显式地计算并截断两个后端之间的策略比值,将梯度权重控制在合理范围内。这一创新确保了即使在推理和训练端存在微小差异时,RL训练依然能够稳健收敛。目前,相关代码已合并至NVIDIA Megatron-Bridge和Volcengine verl开源库中,为 开源AI 社区做出了巨大贡献。

为什么是“大模型+LoRA”而不是“小模型+全量RL”?

一个常见的 AI 迷思是:与其在大模型上费劲做LoRA,不如在小模型上做全参数RL。Mind Lab通过对比实验给出了反直觉的结论。
在同等计算预算下,32B参数的大模型配合Rank=8的LoRA,其效果远超小模型的全参数训练。原因在于RL本质上是“先验受限”的。大模型通过预训练已经获得了丰富的世界知识和推理模式,RL的作用是“唤醒”和“精修”这些能力。相比之下,小模型如果本身生成不出高质量的思维轨迹,RL也无法无中生有。这再次印证了在 AGI 探索之路上,基座模型的规模依然是关键。

经验智能:后预训练时代的各种可能性

Mind Lab不仅带来了训练框架的革新,还提出了“Memory Diffusion”(记忆扩散)机制,让模型像人类一样学会“智慧地遗忘”,仅保留关键经验。更重要的是,他们提出了“研产共设”的理念:真实的产品环境才是最好的RL训练场。
正如Ilya Sutskever所言,以“Scaling”为核心的预训练时代可能正在终结,我们正在进入一个以“基础研究”驱动的经验智能(Experiential Intelligence)时代。预训练构建了“大脑”(知识存储),而强化学习和交互将构建“心智”(在真实世界中生存和进化的能力)。
这次万亿参数LoRA-RL的突破,实质上是将RL训练的门槛降低了一个数量级。这意味着更多研究者和中小企业将有机会参与到顶级 大模型 的优化与定制中来。
想要了解更多关于人工智能、ChatGPTClaude 以及最新 AI新闻 的深度报道,请持续关注 AIGC.BAR,我们为您提供最前沿的 AI资讯AI变现 洞察。
Loading...

没有找到文章