ICLR 2026 | 数据缺少标注？Co-rewarding 开启自监督 RL 推理新范式 | AI资讯 AIGC.bar

type

status

date

slug

summary

引言：摆脱标注数据束缚的推理能力进化

在当前大语言模型（LLM）的演进过程中，通过强化学习（RL）诱导模型的推理能力已成为主流技术路径，其中以 RLVR（Reinforcement Learning with Verifiable Rewards）最为典型。然而，这种方法高度依赖高质量的标注数据来提供准确的奖励信号，这在数据获取成本极高的推理任务中成为了核心瓶颈。

为了突破这一限制，研究者们开始探索“自奖励（Self-rewarding）”强化学习。但在没有真实答案（Ground-truth）监督的情况下，模型往往会陷入“训练崩溃”的泥潭。近日，来自香港浸会大学和上海交通大学的研究团队在 ICLR 2026 上发表了名为 Co-rewarding 的全新框架，为自监督强化学习提供了稳定的解决方案。更多前沿 AI 资讯，欢迎访问 AIGC.bar。

传统自奖励机制的痛点：奖励投机与训练崩溃

在缺乏标注的场景下，现有的自奖励策略通常依赖模型自身的“自信心”或“一致性”进行训练。例如，通过最小化输出内容的熵（Entropy）或通过多数投票（Majority-voting）产生伪标签。

然而，这种单一视角的监督信号极易引发 奖励投机（Reward Hacking）。模型会发现，通过重复输出特定 Token 降低熵，或者产生一个一致但错误的答案，也能骗取高额奖励。这就像学生自己监督自己学习，很容易通过“钻空子”来获得高分，而没有真正掌握知识。最终结果是奖励虚高，但推理正确性却在下降，导致整个训练过程崩溃。

Co-rewarding-I：从数据视角引入类比一致性

针对上述挑战，Co-rewarding 框架提出了一个核心转变：引入“互补视角”的监督信号。Co-rewarding-I 从数据层面切入，通过构建语义等价但表述不同的“改写问题（Rephrased Questions）”来实现相互监督。

其具体操作流程如下： 1. 对原问题进行改写，生成多个表述不同但核心逻辑一致的问题。 2. 对原题和改写题分别进行多次采样，生成推理路径。 3. 利用原题产生的伪标签监督改写题的训练，反之亦然。

这种设计的精妙之处在于，模型必须在不同的表述方式下保持推理结果的一致性，才能持续获得奖励。这种跨视角的一致性显著提高了奖励投机的难度，迫使模型去真正“理解”问题，而不是寻找表述上的漏洞。

Co-rewarding-II：从模型视角实现时间解耦

除了数据视角的创新，Co-rewarding-II 则从模型架构层面解决了监督信号与策略模型之间的耦合问题。在传统的自奖励中，监督信号往往来自正在训练的模型本身，这容易形成正反馈循环导致的崩溃。

Co-rewarding-II 引入了一个“教师参考模型”： * 慢更新教师 + 快更新学生：教师模型由学生模型通过 EMA（指数滑动平均）更新而来。 * 自蒸馏机制：教师模型针对问题生成伪标签，指导学生模型进行 RL 训练。

这种时间上的解耦有效降低了当前策略模型对奖励信号的控制力，增强了系统的鲁棒性。这种机制确保了奖励信号的稳定性，从而在长程 RL 训练中诱导出更深层的推理能力。

实验结果：稳定性与性能的双重飞跃

研究团队在 Qwen2.5、Llama 等主流模型上进行了广泛实验。结果显示，Co-rewarding 在数学推理（MATH）、代码生成等任务上显著优于现有的自奖励方法。

在 MATH 训练集上，Co-rewarding-I 相比基线方法平均性能提升了 4.42%；而在 DAPO-14K 训练集上，Co-rewarding-II 的平均提升更是达到了惊人的 12.90%。更令人兴奋的是，在某些基准测试中（如 GSM8K），该自监督框架训练出的模型性能甚至超越了使用真实答案（Ground-truth）监督的 RL 模型。

此外，Co-rewarding 在提升推理能力的同时，并未牺牲模型在通用领域（如 MMLU-Pro、IFEval）的性能，充分证明了该框架的通用性和稳定性。

结论与展望：更符合 Scaling Law 的自监督之路

Co-rewarding 的成功证明了：即使没有人工标注，通过构建合理且可靠的互补奖励机制，大模型依然可以稳定地进化出强大的推理能力。这一突破不仅缓解了对高质量标注数据的依赖，更符合 Scaling Law 的精神——利用海量的未标注数据，通过更智能的算法实现模型能力的持续增长。

随着自监督强化学习技术的不断成熟，我们距离真正的通用人工智能（AGI）又近了一步。想要了解更多关于大模型、LLM 及人工智能的最新动态，请持续关注 AIGC.bar，获取最专业的 AI 门户资讯与 Prompt 技巧。