Grok 4也得零分?揭秘史上最难AI基准FormulaOne
type
status
date
slug
summary
tags
category
icon
password
网址
引言
近来,我们频繁见证AI大模型在各类竞赛中取得惊人成就,从谷歌的Gemini在数学奥林匹克(IMO)中斩获金牌,到各大模型在编程、写作等领域的超凡表现,似乎预示着AI已经具备了博士级的科研与推理能力。然而,当我们将难度真正提升到前沿科学研究的级别时,这些看似无所不能的模型,其真实能力又当如何?
现实给了我们一个冷静的答案。由专注于超智能研究的机构AAI最新推出的评测基准——FormulaOne,如同一面“照妖镜”,让包括传闻中的GPT-5、备受瞩目的Grok 4、Opus 4.0 Pro等一众顶级AI模型,在最高难度挑战中集体“抱得鸭蛋”,成绩均为零分。这不仅是对当前AI能力的一次严峻拷问,也为我们指明了通往更高阶智能的漫漫长路。
什么是FormulaOne?AI模型的“终极考场”
FormulaOne并非F1赛车,但它对AI模型的考验,丝毫不亚于一场极限挑战。这个全新的评测基准由AAI机构设计,包含了220个新颖的、基于图结构的动态规划问题。其核心目的,是测试AI模型在面对全新、复杂、需要深度抽象和逻辑构建的科学问题时的真正推理能力。
这些问题被精心划分为三个难度等级:
- 浅层难度:模型相对熟悉的问题类型,考验其知识储备和基础推理。
- 深层难度:需要更复杂的逻辑推演和组合分析。
- 最深层难度:触及前沿科研级别,涉及拓扑、几何和复杂的组合问题,需要从零开始构建解决方案。
问题的陈述往往非常简洁自然,但其解法却异常复杂,需要运用到图论中的“树分解”等高级概念,并通过动态规划逐步求解。这考验的不是模型是否“见过”答案,而是它能否像一位人类科学家一样,理解问题本质,并创造性地设计出求解路径。
惨不忍睹的成绩单:Grok 4与顶尖模型集体“翻车”
在FormulaOne的严苛测试下,当前最先进的大模型们交出了一份令人大跌眼镜的成绩单。
- 浅层难度:表现尚可。顶尖模型的正确率在50%至70%之间,这表明这类问题仍在它们的训练数据分布范围内,模型可以凭借“经验”来解决。
- 深层难度:断崖式下跌。被寄予厚望的Grok 4、Gemini-Pro等模型,成功率仅为1/100。即便是表现最好的GPT-5 Pro,也只解出了4/100的题目。
- 最深层难度:全军覆没。在面对科研级别的终极难题时,所有参与测试的模型,包括Grok 4,成功率均为0%。无一例外,集体崩溃。
这一结果有力地证明,尽管当前大模型在模仿、检索和模式匹配上已臻化境,但在面对需要原创性、多步骤、高度抽象的逻辑推理任务时,它们与真正的人类专家之间,仍存在着一道难以逾越的鸿沟。
为什么这么难?揭秘背后的“元定理”
FormulaOne的超高难度,源于其背后深刻的理论基础——Courcelle元定理。这个定理可以通俗地理解为:对于结构足够像“树”的图,任何能用特定形式逻辑(一元二阶逻辑)定义的问题,都可以通过动态规划算法在线性时间内解决。
这里的关键在于,AI需要:
1. 理解图结构:识别出问题可以用“树分解”来简化。
2. 设计状态:在动态规划的每一步中,定义出能够概括所有必要信息的状态。
3. 定义状态转移:设计出当图的结构变化时(如引入、遗忘顶点),状态如何转换的复杂规则。
这个过程充满了精妙的组合与逻辑陷阱,要求模型对问题的底层结构有深刻的洞察力。它不再是简单的“输入-输出”,而是需要像研究者一样,进行长达十几个步骤、环环相扣的严密推理。这恰恰是当前依赖于数据驱动和模式识别的大模型所欠缺的核心能力。
幕后推手AAI:追求“人工专家智能”
推出这一颠覆性评测的AAI(AA-I Technologies),是一家由以色列科技巨擘Amnon Shashua(自动驾驶公司Mobileye、AI21 Labs创始人)于2023年创立的AI公司。
AAI的目标并非通用的AGI,而是提出了一条新的发展路径——人工专家智能(Artificial Expert Intelligence, AEI)。AEI强调将特定领域的深厚知识与严谨的科学推理能力相结合,旨在打造能够像顶级人类专家一样,运用第一性原理解决复杂科学与工程难题的AI系统。FormulaOne基准的诞生,正是为了衡量并推动AI向这一宏伟目标迈进。
结论:正视差距,砥砺前行
FormulaOne的“零分”结果虽然残酷,但它为狂热的AI领域注入了一剂清醒剂。它告诉我们,AI的征途远未结束,真正的智能不仅仅是知识的广度,更是思想的深度。像Grok这样的大模型,在日常对话、信息整合和创意生成方面已经非常强大,但在触及人类智慧顶峰的科学推理领域,仍是“学徒”。
当然,这并不否定当前AI的巨大价值。虽然Grok 4在这次特定测试中表现不佳,但这恰好说明了不同AI工具的适用场景。想要体验当前顶尖大模型的强大对话和创作能力,探索Grok国内如何使用的便捷途径,可以访问 Grok镜像站
https://chat.aigc.bar
。在这里,你可以轻松体验到Grok官方级别的服务,无需复杂的海外网络环境,是感受Grok官方中文版魅力的绝佳平台。未来的AI发展,正需要这样的“考试”来不断发现不足,指引方向。Loading...