AI社区新突破:逆转强化学习,解锁GPT基础模型真容 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)飞速发展的今天,模型的开放与闭源之争一直是社区关注的焦点。不久前,OpenAI罕见地发布了两个推理模型gpt-oss-120b和gpt-oss-20b,但并未提供其未经强化学习(RLHF)的预训练基础模型,这与DeepSeek、Qwen等主流开源社区的做法形成了鲜明对比。然而,AI社区的智慧和动手能力永远不容小觑。一场由顶尖研究者主导的“逆向工程”正在悄然改变游戏规则。
本文将深入解读这一激动人心的事件:康奈尔大学博士生Jack Morris如何通过技术手段,成功“逆转”了OpenAI的对齐过程,将被“驯化”的推理模型还原为更具创造力和原始性的基础模型。这不仅是一次技术上的胜利,更对整个AI开源生态和大模型的发展方向提出了深刻的启示。

一场社区驱动的“逆向工程”壮举

当OpenAI选择只发布经过对齐的推理模型时,他们实际上是提供了一个“戴着镣铐跳舞”的舞者。这些模型擅长遵循指令、进行对话和推理,但其原始的、天马行空的文本生成能力被“安全对齐”所限制。
Jack Morris,这位同时也是Meta研究员的博士生,决定挑战这一限制。他认为,可以找到一种方法来撤销模型的强化学习阶段,使其回归到最原始的预训练状态。经过一番探索,他成功了,并发布了名为 gpt-oss-20b-base 的模型。
这个“逆转版”模型与OpenAI官方发布的版本有本质区别: * 官方gpt-oss模型:经过对齐,更像一个彬彬有礼的助手,回答问题时会遵循安全和道德准则。 * gpt-oss-20b-base模型:移除了对齐层,更像一个原始的、未经雕琢的“大脑”。它可以生成任意文本,但也意味着它不再“安全”——它可能会生成不当内容,甚至可以被用于策划非法活动。
一个有趣的测试揭示了其强大的“记忆力”。当研究者用受版权保护的材料(如《哈利·波特》)的片段提示该模型时,它能够续写出相关内容,这表明它的预训练数据中包含了这些信息,而这种能力在经过严格对齐的模型中通常是被抑制的。

揭秘“对齐逆转”背后的技术魔法

Morris的成功并非偶然,而是基于对LLM(大语言模型)深刻理解的精妙操作。他最初尝试的“越狱”提示词方法被证明是徒劳的。在与OpenAI联合创始人John Schulman交流后,他获得了一个关键灵感:将“对齐逆转”定义为一个优化问题。
这背后依赖于两个核心原理:
1. 低秩性(Low-rankedness)
一个普遍的观点是,预训练过程将海量知识压缩并存储在模型的权重中,而后续的指令微调和强化学习对齐,本质上只是对模型输出分布进行的一次“微调”,使其更符合人类的期望。如果这个假设成立,那么从基础模型到对齐模型的权重更新量,相对于整个模型的参数来说应该是微不足道的。
这意味着,存在一个“秩”很低的更新,可以逆转这个对齐过程。Morris正是利用了这一点,通过低秩适应(LoRA)技术,仅对模型进行极小的改动,就实现了“四两拨千斤”的效果。
具体来说,他仅对模型的第7、15和23层的MLP层应用了秩为16的LoRA微调,可训练参数仅占模型总参数的0.3%。这就像是在复杂的机器上,只拧动了几个关键螺丝,就改变了其整体运行模式。
2. 数据不可知性(Data Agnosticism)
这次微调的目标不是让模型学习新知识,而是“唤醒”它被抑制的原始能力。因此,用于微调的数据内容并不重要,只要其格式与预训练数据相似即可。Morris选择了开放的FineWeb数据集,仅用了约2万份文档就完成了这一过程。这证明了该方法的普适性和高效性。

“还原”还是“模仿”?一场关于模型本质的思辨

这一成果引出了一场有趣的讨论:Morris的方法究竟是真正“挖掘”出了隐藏在底下的基础模型,还是仅仅“教会”了一个对齐模型去模仿基础模型的行为?
Morris的解释极具说服力。他认为,证据主要有两点: * 理论上:更新的秩非常低,这符合“微调逆转”而非“重新学习”的特征。 * 实践上:模型的生成结果与微调数据无关。例如,他没有用《哈利·波特》进行训练,但模型却能回忆起书中的内容。这有力地证明了模型是在调用其庞大的预训练知识库,而非模仿微调数据的行为。
这表明,gpt-oss-20b-base 很可能就是或非常接近其原始的预训练基础模型。

此次事件对AI开源社区的深远影响

Jack Morris的这项工作,其意义远超一个模型的发布。它为人工智能社区,特别是开源力量,带来了几点重要启示:
  • 社区力量的彰显:它证明了,即使是顶级AI公司设置的壁垒,也可能被社区中的才华横溢的个人或小团队所突破。
  • 推动模型透明度:这一事件将再次引发关于模型透明度和开放性的讨论。基础模型的开放对于学术研究、二次开发和理解大模型的内在机理至关重要。
  • 技术范式的探索:这种“对齐逆转”技术可能会被应用到更多模型上,为研究者提供一种全新的、低成本的方式来获取和分析基础模型。
想要紧跟这类前沿的AI资讯大模型动态,深入理解人工智能的最新进展,欢迎访问AI门户网站 AIGC.bar 获取每日AI日报和深度分析。在这里,你可以找到最新的Prompt技巧和AI变现的无限可能。

结论

Jack Morris通过精妙的技术手段,为我们揭开了gpt-oss模型的神秘面纱,让我们得以一窥其基础模型的原始形态。这不仅是一次成功的技术探索,更是开源精神的一次伟大胜利。它提醒我们,在AGI的探索道路上,社区的集体智慧是推动技术透明、健康发展的关键力量。
展望未来,Morris计划对更大规模的gpt-oss-120b模型进行同样的“逆转”操作,并进行更深入的比较分析。我们有理由相信,这场由社区驱动的“逆向工程”浪潮,将为AI世界带来更多的惊喜与变革。
Loading...

没有找到文章