GMPO:稳定LLM强化学习的革命性突破 | AIGC.bar AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)飞速发展的今天,大型语言模型(LLM)的推理能力已成为衡量其智能水平的关键标尺。为了提升这些复杂模型的性能,研究人员普遍采用强化学习(RL)进行微调。然而,像近端策略优化(PPO)及其变体(如GRPO)等主流方法,在通往更高智能的道路上始终伴随着一个棘手的难题:训练过程的不稳定性。尤其是在处理极端奖励信号时,模型更新常常会剧烈波动,严重影响最终效果。
为了攻克这一难题,一项名为几何平均策略优化(Geometric-Mean Policy Optimization, GMPO)的创新方法应运而生。它不仅是对现有技术的简单改良,更是一次范式上的革新,为大型语言模型的稳定、高效强化学习开辟了一条全新的道路。
传统强化学习的“阿喀琉斯之踵”:为何不稳定?
要理解GMPO的突破性,我们首先需要审视其前身——组相对策略优化(GRPO)所面临的困境。GRPO通过优化一个序列中所有Token(词元)奖励的算术平均值来更新模型。
算术平均有一个众所周知的弱点:对异常值(Outliers)极其敏感。在强化学习的训练中,某些Token可能会因为其重要性采样比率(当前策略与旧策略分配给该Token的概率之比)出现极端值,从而产生一个巨大的奖励信号。这个异常信号会像一颗“老鼠屎”一样,极大地扭曲整个序列的平均奖励,导致梯度更新方向的剧烈摆动,使得训练过程非常不稳定。
虽然GRPO引入了对重要性采样比率进行“裁剪”(Clipping)的机制来缓解这一问题,但这更像是一个“创可贴”,它限制了模型的更新幅度,在一定程度上牺牲了模型的探索能力和最终
Loading...