奖励模型终现Scaling Law!POLAR以小博大,重塑AI对齐范式 | AI资讯-AIGC.bar

type
status
date
slug
summary
tags
category
icon
password
网址
ChatGPT问世以来,如何让大模型(LLM)更好地理解并遵循人类的意图与偏好,一直是人工智能领域的核心议题。奖励模型(Reward Model, RM)作为强化学习微调(RLHF)的关键一环,其性能直接决定了LLM的对齐上限。然而,传统奖励模型长期面临着依赖海量人工标注、泛化能力差和难以扩展的“三座大山”。
最近,由上海人工智能实验室与复旦大学联合推出的全新奖励模型POLAR,似乎为这个困扰业界已久的难题带来了曙光。它不仅开创性地引入了对比学习范式,更首次在奖励模型领域清晰地展现出与大模型类似的Scaling Law(扩展定律),让人们看到了打通AGI路径上“最后一环”的希望。

什么是POLAR?一场奖励模型的范式革命

传统的奖励模型通常基于“绝对偏好”进行训练,即通过人工标注来判断两个或多个回答中哪一个更好。这种方式虽然直观,但极度依赖昂贵且耗时的人工标注数据,且模型学到的是一种相对优劣,难以对回答的质量进行精细化、可量化的评估。
POLAR(Policy Discriminative Learning)则彻底颠覆了这一思路。它不直接判断“好”与“坏”,而是通过衡量模型输出与一个“参考答案”或“目标策略”之间的距离来给出奖励分数。输出与参考答案越接近,得分越高。
为了实现这一点,POLAR采用了一种巧妙的两阶段训练方法:
  1. 无监督预训练:这是POLAR的核心创新。研究人员构建了一个包含超过180个不同开源模型的“策略模型池”。通过让这些模型对海量文本进行续写,并采用对比学习的方式进行训练。简单来说,由同一个模型生成的两个续写被视为“正样本对”(距离近),而由不同模型生成的续写则被视为“负样本对”(距离远)。通过这种方式,POLAR在没有动用任何人工偏好数据的情况下,学会了辨别不同策略模型输出之间的细微差异。
  1. 少量偏好微调:在强大的预训练基础上,POLAR仅需极少量的、带有人类偏好排序的数据(例如,A > B > C)进行微调,就能迅速对齐人类的价值观和偏好。
这种“先学共性,再学个性”的模式,让POLAR摆脱了对大规模偏好数据的依赖,为其惊人的扩展性和泛化能力奠定了坚实基础。

首次涌现!奖励模型的Scaling Law

大模型领域最激动人心的发现之一,莫过于Scaling Law的存在——即随着模型参数、数据量和计算量的增加,模型的性能会以可预测的方式持续提升。这是通往更强人工智能的基石。然而,在奖励模型领域,这一规律却迟迟未能出现。
POLAR的诞生填补了这一空白。实验数据显示,POLAR的性能与其模型参数量、训练计算量之间呈现出清晰的幂律关系,拟合优度(R²)高达0.99以上。
这意味着什么?
  • 可预测的性能增长:我们可以像扩展LLM一样,通过投入更多的计算资源来持续、稳定地提升奖励模型的性能。
  • 打通RL链路的扩展瓶颈:过去,强化学习的效果受限于奖励模型的天花板。现在,一个可以无限变强的“裁判”出现了,这将极大释放强化学习的潜力。
  • 通往通用奖励模型的可能:Scaling Law的出现,预示着构建一个能评判万事万物、具备极强泛化能力的通用奖励模型(Universal Grader)不再是天方夜谭。
这一发现是AI发展史上的一个重要里程碑,它系统性地解决了奖励模型的扩展性问题,为LLM的后训练阶段铺就了一条康庄大道。对最新的AI新闻和技术突破感兴趣的读者,可以关注AI门户网站 https://aigc.bar 获取前沿AI资讯

1.8B VS 70B:小模型的大能量

理论上的突破固然振奋人心,但POLAR的实际表现同样令人惊叹。实验结果显示,POLAR以极小的模型体量,在多个评测维度上超越了规模大其数十倍的SOTA(业界最佳)奖励模型。
  • 偏好预测准确性:在对人类偏好的预测任务中,仅有1.8B参数的POLAR-1.8B,其表现已经可以媲美甚至超越参数量为其15倍(27B)和40倍(72B)的顶尖奖励模型。在专业的STEM(科学、技术、工程和数学)领域,其优势尤为明显。
  • 强化微调(RFT)效果:在更考验泛化能力的真实强化学习场景中,POLAR的优势进一步放大。使用POLAR-7B作为奖励信号对Llama-3.1-8B进行微调后,模型在各项基准测试中的性能平均提升了9.0%,显著优于使用72B参数奖励模型优化后的结果。
这些结果有力地证明了POLAR范式的优越性。它不仅仅是在“考试”中表现好,更能作为一名出色的“教练”,在实际“训练”中指导大模型变得更强。这对于AI变现和商业应用落地具有不可估量的价值。想要体验最前沿的大模型能力,或寻找稳定可靠的国内中转API,都可以访问 https://aigc.bar 及其相关服务。

结论:开启AI对齐新篇章

POLAR的出现,不仅仅是发布了一款性能优异的新模型,更重要的是,它为人工智能的“对齐问题”提供了一套全新的、可扩展的系统性解决方案。
通过创新的对比学习预训练和对Scaling Law的成功验证,POLAR解决了传统奖励模型的核心痛点,让小模型也能爆发出巨大能量。这无疑为OpenAI等巨头去年在强化微调领域挖下的“坑”提供了一份完美的答案。
未来,随着奖励模型能力的持续提升,我们有理由相信,LLM将在逻辑推理、事实准确性、安全性乃至创造力上实现新的飞跃。POLAR迈出的这一小步,很可能是整个AI领域迈向更高级智能的一大步,为我们探索AGI的未来点亮了一盏明灯。
Loading...

没有找到文章