字节Seed Prover 1.5详解:AI如何靠“打草稿”拿下IMO金牌
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能追逐人类智力巅峰的赛道上,数学奥林匹克竞赛(IMO)一直被视为检验逻辑推理能力的“圣杯”。近日,字节跳动Seed AI4Math团队发布的最新研究成果震惊了AI社区:他们的最新模型 Seed Prover 1.5,在无人干预的情况下,仅用16.5小时就成功解决了2025年IMO的前5道题目,最终得分35分,达到了金牌分数线。
这一成绩不仅追平了谷歌DeepMind旗下Gemini在今年7月创下的官方纪录,更标志着国产大模型在复杂数学推理领域取得了里程碑式的突破。相比于上一代模型3天仅解出4题的“银牌”水平,Seed Prover 1.5的进化速度令人咋舌。本文将深入剖析这款“最强数学模型”背后的技术奥秘,看看它是如何通过独特的“打草稿”策略实现逆袭的。
数学推理的Scaling Law:算力换智力
Seed Prover 1.5的成功,首先验证了大模型领域著名的Scaling Law(缩放定律)在数学推理任务中的有效性。但这不仅仅是堆砌参数那么简单。该模型拥有230B的总参数量(其中23B为激活参数),其核心突破在于验证了两个维度的Scaling效应:
- 强化学习训练时的Scaling:通过大规模的Agentic RL(代理强化学习),随着训练步数的增加,模型在训练集上的证明通过率从50%飙升至接近90%。
- 测试时(Test-time)的Scaling:研究证明,在推理阶段增加计算资源,可以让模型的解题率呈对数线性增长。这意味着,给AI更多的思考时间和计算资源,它的逻辑推理能力会显著增强。
这种“算力换智力”的策略,特别是在处理像IMO这样需要极深逻辑链条的难题时,展现出了巨大的潜力。然而,单纯的算力堆叠并不足以解决形式化证明的难题,真正的“杀手锏”在于其独特的架构设计。
Agentic Prover:像人类一样使用工具
传统的AI数学模型通常面临一个两难选择:要么一步步生成证明(效率极低),要么一次性生成完整证明(极易出错)。Seed Prover 1.5打破了这一僵局,提出了一种全新的 Agentic Prover 架构。
在这个架构中,Lean(一种形式化数学语言)不再仅仅是输出的目标,而是被模型视为一种可交互的“工具”。这使得AI的解题过程更像是一个人类数学家:
- 主动查阅文档:模型可以检索Lean庞大的数学库(Mathlib),寻找可用的定理和定义,而不是依赖可能产生幻觉的隐式记忆。
- 代码辅助验证:遇到复杂的计算环节,模型会编写并运行Python脚本来辅助验证自己的直觉,确保每一步推导的稳固性。
- 增量式引理验证:模型学会了“步步为营”。它不再试图一口气吃成胖子,而是将大问题拆解为若干个引理(Lemmas)。每证明一个引理,系统就会将其存档复用,成为后续推理的基石。
这种基于引理的交互方式,既保证了证明的严谨性,又极大地提高了推理效率。
Sketch Model:AI学会了“打草稿”
如果说Agentic Prover是执行者,那么 Sketch Model 就是战略家。这是Seed Prover 1.5最引人注目的创新点——它模拟了人类数学家“打草稿”的思维过程。
在解决复杂数学问题时,人类通常不会直接写出严丝合缝的形式化代码,而是先在草稿纸上画出逻辑骨架,列出关键步骤。Sketch Model正是为此而生:
- 自然语言到形式语言的桥梁:它充当了一个翻译器,将自然语言的证明思路转化为Lean语言的逻辑结构,但忽略具体的语法细节。
- 化繁为简:它将原本不可解的复杂命题,拆解为若干个独立的、难度较低的子目标。
- 混合奖励机制:为了训练这个模型,研究人员设计了复杂的奖励信号,包括Lean编译器的验证、自然语言Prover的逻辑检查,以及基于长思维链的评分模型。只有当草稿在形式、逻辑和语义上都达标时,模型才会获得奖励。
这种“先规划,后执行”的策略,有效地规避了长文本生成中常见的错误累积问题,让AI在面对高难度数学题时不再迷失方向。
结语与展望
Seed Prover 1.5的出现,展示了一个分层级多智能体协作系统的强大威力:Natural Language Prover提供直觉,Sketch Model规划路径,Agentic Prover攻克细节。这种仿生学的思维链条,配合测试时的算力扩展,为AI解决复杂逻辑问题指明了新的方向。
随着技术的不断开源和迭代,我们有理由相信,AI不仅能在竞赛中拿金牌,未来更将成为人类科学家探索未知数学领域的得力助手。关注 AIGC.BAR,获取更多关于 AI、LLM 及 大模型 的前沿资讯,紧跟人工智能技术变革的浪潮。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)