阶跃星辰开源新范式:AI像人一样思考修正,攻克数学证明 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址

引言

在人工智能(AI)的星辰大海中,形式化定理证明一直被视为检验机器逻辑推理能力的终极试炼场。这不仅要求AI具备严谨的逻辑,更需要它能像人类数学家一样,在复杂的探索中不断试错、反思和修正。近日,一则重磅AI新闻引起了业界的广泛关注:国内大模型公司阶跃星辰正式发布并开源了其形式化定理证明大模型——StepFun-Prover,提出了一种模仿人类推理修正过程的全新范式,为攻克这一AI领域的“圣杯”问题开辟了新路径。
这一突破性进展不仅展示了LLM在复杂推理任务上的巨大潜力,也让我们看到了通往通用人工智能(AGI)的又一级坚实阶梯。接下来,我们将深入解读StepFun-Prover背后的核心技术,探究它是如何像人一样“思考”和解决数学难题的。

核心突破:模仿人类的“试错-修正”循环

传统AI模型在解决问题时,往往采用“一步到位”的生成方式,一旦出错,便难以挽回。然而,人类在面对复杂问题(如数学证明)时,总会经历一个反复试错、根据反馈调整思路的过程。StepFun-Prover的核心创新,正是将这种“试错-修正”的动态循环机制,深度融入到了模型的设计中。
该模型并非孤立地生成证明代码,而是与一个名为Lean 4的形式化证明环境进行实时交互。整个过程可以生动地比喻为:
  1. 提出假设:模型首先用自然语言分析问题,然后生成一小段Lean 4代码作为证明的一步。
  1. 提交验证:这段代码被发送到Lean 4环境中执行,如同学生将解题步骤交给老师批改。
  1. 获取反馈:环境会返回成功或失败的信息。如果是错误,还会指出具体的错误类型。
  1. 反思修正:模型接收并“阅读”这些反馈,用自然语言分析失败的原因,然后生成新的、修正后的代码。
这个循环不断重复,直到整个证明被Lean 4环境完全接受。这种基于环境反馈的强化学习流程,让人工智能模型真正具备了类似程序员调试代码的强大能力,从根本上提升了解决复杂问题的鲁棒性。

训练心法:三步炼成“数学证明大师”

要让模型掌握如此精妙的“手艺”,一套创新的训练方法必不可少。阶跃星辰团队设计了一套环环相扣、逐步进阶的“三步训练法”。

第一步:两阶段监督微调(SFT)——打好基础

这是模型的“启蒙教育”阶段。 * 基础编码能力:首先,利用海量的开源Lean 4数据进行训练,让模型掌握这门形式化语言的基本语法和代码补全能力。 * 工具交互学习:接着,使用经过精细筛选的高质量数据进行第二阶段微调,教会模型如何利用Lean 4环境作为工具来验证自己的想法,初步学会“与环境对话”。
完成这一步,模型就从一个“书呆子”变成了懂得使用工具的“学徒”。

第二步:工具集成强化学习(RL)——实战演练

这是模型能力飞跃的关键。团队采用GRPO(Good Reference Policy Optimization)算法进行强化学习,让模型在真实的解题环境中反复练习。在这一阶段,模型被鼓励: * 用自然语言进行思考,清晰地阐述解题思路。 * 主动生成代码并提交验证。 * 智能分析反馈,无论是成功还是失败,都能从中学习。
奖励函数的设计也极为巧妙:只有当最终证明被环境完全验证通过时,模型才会获得奖励。这种目标导向的训练,迫使模型不遗余力地去发现错误、修正错误,直至成功。

第三步:RL-SFT-RL迭代循环——精益求精

为了让模型能攻克越来越难的任务,团队引入了“RL-SFT-RL”的迭代优化循环。其核心思想是“从失败中汲取养分”。 * 在强化学习过程中,那些虽然失败率很高、但最终被成功攻克的难题路径,会被筛选出来。 * 其中逻辑清晰、反馈处理得当的“优秀解题报告”会被重新用作监督微调的训练数据。 * 经过新一轮SFT“补课”后,模型再次投入强化学习的“考场”。
通过这种方式,模型不断将高难度的“错题”内化为自己的能力,实现了真正的“越练越强”。

性能卓越:刷新Pass@1准确率新纪录

卓越的训练范式带来了惊人的性能表现。在权威的miniF2F-test基准测试集上: * StepFun-Prover-Preview-32Bpass@1 通过率(即一次性成功率)达到了惊人的 70.0%,超越了所有已知的公开模型,领先幅度超过4%。 * 即便是规模更小的 StepFun-Prover-Preview-7B 模型,其pass@1通过率也已经超越了像DeepSeek-Prover-V2-671BKimina-Prover-72B这样参数量远大于它的模型。
这一成绩充分证明了该技术范式的先进性和高效性,是大模型领域在专业任务上取得的又一重大突破。

结论:迈向更强推理能力的坚实一步

阶跃星辰开源的StepFun-Prover,不仅是一个性能强大的模型,更重要的是,它为AI社区展示了一种构建更强推理智能的全新思路。通过模仿人类在解决复杂问题时的核心智慧——“与环境交互、从错误中学习”,AI在被视为人类专属领地的抽象推理领域,又迈出了坚实的一大步。
这种能够自我修正和迭代优化的能力,是通往更高级别人工智能(AGI)的关键特征。随着这类技术的不断发展和开源,我们有理由相信,AI将在科研、工程、教育等更多领域扮演关键的辅助角色。
想要获取更多前沿的AI资讯和深度解读,了解包括ChatGPTClaude在内的最新大模型动态,欢迎访问AIGC导航站(https://www.aigc.bar),这里汇集了最全面的AI工具和新闻,助您把握人工智能时代的脉搏。
Loading...

没有找到文章