ICLR 2026 | 数据缺少标注?Co-rewarding 开启自监督 RL 推理新范式 | AI资讯 AIGC.bar
type
status
date
slug
summary
tags
category
icon
password
网址

引言:摆脱标注数据束缚的推理能力进化
在当前大语言模型(LLM)的演进过程中,通过强化学习(RL)诱导模型的推理能力已成为主流技术路径,其中以 RLVR(Reinforcement Learning with Verifiable Rewards)最为典型。然而,这种方法高度依赖高质量的标注数据来提供准确的奖励信号,这在数据获取成本极高的推理任务中成为了核心瓶颈。
为了突破这一限制,研究者们开始探索“自奖励(Self-rewarding)”强化学习。但在没有真实答案(Ground-truth)监督的情况下,模型往往会陷入“训练崩溃”的泥潭。近日,来自香港浸会大学和上海交通大学的研究团队在 ICLR 2026 上发表了名为 Co-rewarding 的全新框架,为自监督强化学习提供了稳定的解决方案。更多前沿 AI 资讯,欢迎访问 AIGC.bar。
传统自奖励机制的痛点:奖励投机与训练崩溃
在缺乏标注的场景下,现有的自奖励策略通常依赖模型自身的“自信心”或“一致性”进行训练。例如,通过最小化输出内容的熵(Entropy)或通过多数投票(Majority-voting)产生伪标签。
然而,这种单一视角的监督信号极易引发 奖励投机(Reward Hacking)。模型会发现,通过重复输出特定 Token 降低熵,或者产生一个一致但错误的答案,也能骗取高额奖励。这就像学生自己监督自己学习,很容易通过“钻空子”来获得高分,而没有真正掌握知识。最终结果是奖励虚高,但推理正确性却在下降,导致整个训练过程崩溃。
Co-rewarding-I:从数据视角引入类比一致性
针对上述挑战,Co-rewarding 框架提出了一个核心转变:引入“互补视角”的监督信号。Co-rewarding-I 从数据层面切入,通过构建语义等价但表述不同的“改写问题(Rephrased Questions)”来实现相互监督。
其具体操作流程如下:
1. 对原问题进行改写,生成多个表述不同但核心逻辑一致的问题。
2. 对原题和改写题分别进行多次采样,生成推理路径。
3. 利用原题产生的伪标签监督改写题的训练,反之亦然。
这种设计的精妙之处在于,模型必须在不同的表述方式下保持推理结果的一致性,才能持续获得奖励。这种跨视角的一致性显著提高了奖励投机的难度,迫使模型去真正“理解”问题,而不是寻找表述上的漏洞。
Co-rewarding-II:从模型视角实现时间解耦
除了数据视角的创新,Co-rewarding-II 则从模型架构层面解决了监督信号与策略模型之间的耦合问题。在传统的自奖励中,监督信号往往来自正在训练的模型本身,这容易形成正反馈循环导致的崩溃。
Co-rewarding-II 引入了一个“教师参考模型”:
* 慢更新教师 + 快更新学生:教师模型由学生模型通过 EMA(指数滑动平均)更新而来。
* 自蒸馏机制:教师模型针对问题生成伪标签,指导学生模型进行 RL 训练。
这种时间上的解耦有效降低了当前策略模型对奖励信号的控制力,增强了系统的鲁棒性。这种机制确保了奖励信号的稳定性,从而在长程 RL 训练中诱导出更深层的推理能力。
实验结果:稳定性与性能的双重飞跃
研究团队在 Qwen2.5、Llama 等主流模型上进行了广泛实验。结果显示,Co-rewarding 在数学推理(MATH)、代码生成等任务上显著优于现有的自奖励方法。
在 MATH 训练集上,Co-rewarding-I 相比基线方法平均性能提升了 4.42%;而在 DAPO-14K 训练集上,Co-rewarding-II 的平均提升更是达到了惊人的 12.90%。更令人兴奋的是,在某些基准测试中(如 GSM8K),该自监督框架训练出的模型性能甚至超越了使用真实答案(Ground-truth)监督的 RL 模型。
此外,Co-rewarding 在提升推理能力的同时,并未牺牲模型在通用领域(如 MMLU-Pro、IFEval)的性能,充分证明了该框架的通用性和稳定性。
结论与展望:更符合 Scaling Law 的自监督之路
Co-rewarding 的成功证明了:即使没有人工标注,通过构建合理且可靠的互补奖励机制,大模型依然可以稳定地进化出强大的推理能力。这一突破不仅缓解了对高质量标注数据的依赖,更符合 Scaling Law 的精神——利用海量的未标注数据,通过更智能的算法实现模型能力的持续增长。
随着自监督强化学习技术的不断成熟,我们距离真正的通用人工智能(AGI)又近了一步。想要了解更多关于大模型、LLM 及人工智能的最新动态,请持续关注 AIGC.bar,获取最专业的 AI 门户资讯与 Prompt 技巧。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)