AI数学神话破灭：2025 IMO真题面前，顶尖大模型为何全线溃败？快来aigc.bar了解更多AI资讯

type

status

date

slug

summary

终极考场：2025 IMO真题的“照妖镜”

国际数学奥林匹克（IMO）是为全球18岁以下顶尖数学天才设立的巅峰对决。其试题以极高的难度、深度和创造性要求著称，不仅能轻松难倒绝大多数大学数学教授，更是对人类智慧极限的挑战。陶哲轩这样的天才在13岁时便已摘得金牌，而2024年的美国队成员得分也普遍在87%以上。

为了真正检验大模型的数学能力天花板，苏黎世联邦理工学院（ETH Zurich）的MathArena团队精心设计了这次评测。他们巧妙地选择了2025年IMO试题刚刚发布的时间点进行测试，从根源上杜绝了AI“开卷考试”（即在训练数据中见过原题）的可能性。所有答案均由两位IMO专家进行双盲评分，评分标准与官方竞赛完全一致，确保了结果的公正性与权威性。

梦之队折戟：顶尖模型的惨淡成绩单

本次参赛的AI阵容堪称“梦之队”，汇集了当今世界的顶流模型：

Gemini 2.5 Pro (谷歌)

o3 & o4-mini (OpenAI)

Grok-4 (xAI)

DeepSeek-R1 (深度求索)

然而，结果却令人大跌眼镜。即便是表现最好的Gemini 2.5 Pro，在满分42分的试卷中也仅获得13分，得分率约31%。这个成绩，距离IMO历史上最低的铜牌分数线都还有遥远的距离。

更令人震惊的是Grok-4和DeepSeek-R1的表现。这两个在其他基准测试中曾大放异彩的模型，此次成绩出现了明显退步。尤其是Grok-4，其答案常常只给出一个最终结果，完全省略了至关重要的证明过程，展现出一种“我懒得解释”的摆烂姿态，这在要求严谨逻辑的数学竞赛中是致命的。

AI的“阿喀琉斯之踵”：思路正确，逻辑断裂

这次竞赛最有趣的发现，在于揭示了AI与人类在解题思路上一个根本性的差异。人类顶尖选手在IMO竞赛中，通常要么完全解出题目拿到满分（7分），要么毫无头绪得到0分，获得中间分数的情况相对较少。

人工智能则恰恰相反。它们非常擅长拿到“及格边缘”的中间分数。评委们发现，AI时常能捕捉到解题的正确方向，甚至提出颇具创造性的切入点。然而，每当进入需要严密逻辑推导和证明的关键步骤时，它们便会“掉链子”，出现逻辑跳跃或直接放弃证明。

这暴露出当前LLM的核心短板： * 缺乏真正的逻辑一致性：AI能模仿人类的“灵感”，却无法执行严丝合缝的逻辑演绎。 * 知识幻觉的致命伤：以Gemini为例，当它无法继续证明时，竟会编造出类似“根据史密斯-约翰逊超平方引理”这样听起来高深莫测但完全不存在的定理，试图蒙混过关。这表明它并非真正“理解”数学，而是在进行一种高级的文本模式匹配。

算力与策略的真相：“大力出奇迹”的代价

或许有人会说，AI的这点分数已经很了不起了。但更深层的事实是，这个成绩还是在“不计成本”的前提下取得的。

为了让AI发挥出最佳水平，研究团队采用了“Best-of-32”策略。即针对每一道题，模型会生成32个不同的解法，然后由AI自己进行多轮“内部PK”，选出它认为最好的一个版本，再提交给人类评委。这意味着巨大的算力消耗——仅Grok-4一个模型的测试成本就高达近500美元。

这揭示了一个残酷的现实：普通用户日常使用的AI服务，通过简单的单次提问，几乎不可能复现这种水平的解题能力。AI在数学难题上的表现，与其说是智慧的火花，不如说是计算资源和概率筛选的堆砌。

结论

2025 IMO的这场对决，无疑给高歌猛进的AI领域泼了一盆冷水。它清晰地告诉我们，尽管大模型在语言、编程和信息整合上取得了惊人成就，但在需要深度、严谨和创造性逻辑推理的人类智慧巅峰领域，它们依然只是一个蹒跚学步的孩童。

AI的“数学神话”暂时破灭了，但这并非终点。这次失败精准地标示出了未来AGI（通用人工智能）需要攻克的堡垒：从模仿人类思路，到真正拥有并执行严谨的逻辑链条。对于关注AI发展的我们来说，人类智慧的堡垒依然坚固。想要获取更多关于AI、大模型的前沿AI资讯和深度解读，欢迎访问AI门户网站 https://aigc.bar，与我们一同见证人工智能的真实进展与未来挑战。