OneReason深度解析：推荐系统迎来“思考”时代

type

status

date

slug

summary

为什么推荐系统需要“学会思考”？

在传统的工业级推荐系统中，模型是一个“黑盒打分器”。它能记住“看过 A 物料的用户也喜欢看 B 物料”，但它无法回答“为什么”这一核心问题。在 LLM 时代，推荐系统引入推理能力（Reasoning）主要为了解决以下三个本质痛点：

第一，推荐本质上是“溯因推理”，而非简单的模式匹配。用户的行为是“果”，潜在的意图是“因”。在长尾品类或冷启动场景中，用户行为数据极其稀疏，统计模型无法有效泛化。而具备推理能力的模型，能够从嘈杂、跨域的行为序列中反推用户“此刻为什么需要这个物料”，实现更高维度的理解。

第二，从“黑盒打分”走向“可解释、可干预的认知过程”。当模型将决策过程显式地写在思维链（CoT, Chain of Thought）中时，业务人员可以直接读取其推理逻辑。这意味着业务约束可以直接写在推理层，策略迭代节奏可以从周级缩短到天级，极大放大了业务杠杆。

第三，Reasoning 是构建 Agentic RecSys（智能体推荐系统）的基石。未来的推荐系统将是千人千策、能规划、能使用工具并进行多轮对话的智能体。这要求底座大模型必须具备强大的物料语义理解、逻辑推理以及稳定的指令遵循能力。

三阶段预训练：打通物料与语言的语义底座

为了让模型真正看懂推荐物料，OneReason 在预训练阶段构建了一个实现 Item（物料）与自然语言深度语义对齐的推荐基座。

OneReason 设计了四级分层预训练数据架构，总规模达 578B token：

Token 级：进行物料 ID 子 token 级别的语义对齐，使模型理解 ID 的内在结构。

Item 级：将物料的属性、文本描述与 ID 进行绑定，让模型理解物料的具体含义。

Relational 级：引入 Item-to-Item 的关联关系，通过常识知识理解物料关联背后的原因。

User 级：引入用户长程行为序列，让模型学习兴趣的动态演化。

在训练策略上，OneReason 采用三阶段分步训练：先稳定新增的 item 表征，再进行全参数语义对齐，最后面向长用户行为序列进行优化。这种设计有效规避了模型因专攻推荐任务而造成的通用理解能力下滑，为后续的思维链微调打下了坚实的底座。

SFT 阶段：构建可解释的推荐思维链

在预训练夯实了语义基础后，SFT 阶段的核心任务是教会模型如何生成高质量、可追溯的推理过程。OneReason 将推荐思维链（R3 CoT）显式拆解为三个连贯的模块：

Persona Abstraction（用户抽象）：从稀疏的行为中抽象出可解释的偏好先验，如“家庭生活主导用户”、“数码发烧友”等，并引用典型证据进行推断。

Interest Expansion（兴趣发散）：将用户近期的行为轨迹转化为一组候选的兴趣假设。实验表明，保持紧凑的假设宽度（如 3-5 个）效果最好，过大的候选集反而会模糊核心兴趣。

Transition Inference（兴趣推断）：综合评估证据强度、时间连贯性与画像匹配度，清晰还原兴趣是如何从历史轨迹中一步步自然演化而来的。

为了防止模型在生成 CoT 时“偷懒”或产生幻觉，OneReason 设计了多维度评估体系，严格从 Safety（防剧透）、Consistency（一致性）、Logic（逻辑性）、Factuality（真实性）和 Informativeness（信息量）五个维度对推理链路进行量化评测，确保生成的思考过程具有实际业务价值。

强化学习（RL）：激活“思考”的关键钥匙

在 SFT 阶段后，模型虽然学会了模仿推理，但尚未实现自我突破。OneReason 证实，强化学习是解锁推荐推理收益的必备环节。

针对推荐任务候选空间大、奖励信号稀疏的特点，OneReason 对通用 GRPO 算法进行了三项重要改进：

两阶段轨迹生成：先生成推理轨迹，再基于同一轨迹扩展多个候选推荐，以较小开销增加有效轨迹数量。

Set-wise 奖励：从单点评估提升为集合评估，基于一组候选推荐整体评估其覆盖度和多样性，鼓励模型探索能覆盖用户多方向兴趣的推理路径。

优化稳定策略：对推理文本 token 和推荐 itemic token 采用不同的裁剪范围，降低未命中样本的梯度权重，缓解稀疏奖励下的训练震荡。

此外，针对跨域推荐中的干扰问题，OneReason 提出了“先专后合”（Specialize-then-Unify）的训练链路：首先在短视频、电商、广告等每个领域内独立进行强化学习，培养领域专家；随后通过 RFT（拒绝采样微调）或 MOPD（多导师在线策略蒸馏）技术，将多个专家的能力融合到统一模型中，实现了多业务场景的协同提升。

瞩目的实验结果与未来展望

在与各大主流推荐模型及通用大模型（如 GPT、Qwen 等系列）的对比评测中，OneReason 展示出了显著的优势：

Thinking 模式首次稳定超越 Non-Thinking 模式：在 Pass@4 指标上，Thinking 平均领先 Non-Thinking +13.45%，在推荐基模上第一次把“思考”变成了正资产。

业务增量显著：在快手本地生活广告的实际 A/B 测试中，OneReason 带来了 +10.33% 的曝光和 +8.23% 的广告收入，ROI > 5，验证了其在工业级场景下的变现能力。

通用能力得以保留：在 MMLU-pro 等通用评估上，OneReason 基本保留了基座模型的原始水平，没有因为推荐专项训练而产生灾难性遗忘。

OneReason 的成功，标志着推荐系统正式迈入了从“记忆”走向“认知”的新阶段。通过物料语义与通识语义的深度对齐，推荐背后的逻辑不再是不可知的黑盒，这也为原生 ReAct 范式的 Agentic RecSys 铺平了道路。

如果您想持续获取关于人工智能、大模型、LLM 以及 AI变现的最新 AI资讯，敬请关注我们的 AI门户网站 AIGC.bar，获取每日最新的 AI日报与前沿技术解读。