GPT-5跑分被指“作弊”?揭秘OpenAI基准测试背后的数字游戏

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)的激烈竞赛中,每一个百分点的提升都足以成为全球科技圈的头条新闻。近日,OpenAI 宣布其下一代模型 GPT-5 在一项关键的编程能力测试中取得了亮眼的成绩,似乎再次巩固了其行业领导者的地位。然而,这份看似完美的答卷背后,却被敏锐的分析师揭开了冰山一角,引发了一场关于测试公平性、数据透明度乃至“作弊”嫌疑的广泛讨论。
这场风波不仅关系到 GPT-5 与其主要竞争对手 Claude 之间的排名,更深刻地触及了当前 AI 行业基准测试的信任根基。当一家公司既是赛道上的选手,又是规则的制定者时,我们看到的“高分”究竟是真实力的体现,还是精心设计的营销数字?

一张图表引发的信任危机

故事的开端颇具戏剧性。在 OpenAI 最初发布的 GPT-5 性能报告中,一张用于对比其与 Claude 模型性能的图表因比例严重失调而遭到全网群嘲。这个看似无心之失的小插曲,却像一根引线,点燃了外界对其数据严谨性的怀疑。
尽管 OpenAI 迅速修正了图表,但这个小小的“视觉错误”让人们开始用放大镜审视报告中的每一个细节。在 大模型(LLM) 竞争白热化的今天,任何一丝不严谨都可能被解读为别有用心,而这次,人们发现的问题远不止一张图表那么简单。

74.9% vs 74.5%:微小差距下的“猫腻”

风暴的中心是名为 SWE-bench Verified 的一项基准测试。这个测试集被誉为评估 AI 真实代码修复能力的“高考”,包含了500道源自GitHub真实项目的编程难题。AI 需要像人类程序员一样,提交代码来修复这些Bug,并通过所有测试用例才算成功。
  • Anthropic的Claude Opus 4.1:老老实实完成了全部500道题,取得了 74.5% 的优异成绩。
  • OpenAI的GPT-5:公布的成绩是更高的 74.9%
然而,当分析机构SemiAnalysis深入挖掘报告的脚注时,一个关键信息浮出水面:OpenAI只测试了477道题
这意味着 GPT-5 直接“跳过”了23道题。OpenAI 的解释是“这些题目在我们现有的基础设施上无法运行”。这个理由显然难以服众。为什么竞争对手 Claude 的基础设施可以运行,而作为行业巨头的 OpenAI 却不行?更核心的问题是,这被跳过的23道题,究竟是无关紧要的边缘题目,还是会拉低平均分的高难度“拉分题”?如果答案是后者,那么 GPT-5 这0.4%的微弱领先优势就显得毫无说服力,甚至有“避重就轻、刷高分”的嫌疑。

既是选手,也是裁判:OpenAI的规则游戏

更深层次的问题在于,SWE-bench Verified 这个测试集本身就是由 OpenAI “净化”而来的。OpenAI 认为原始的SWE-bench数据集存在太多“几乎无法解决”的难题,会掩盖 AI 的真实能力。
为此,他们雇佣了93名程序员对原数据集中的题目进行难度评分(0-3分),然后直接剔除了所有被评为2分(题目模糊)和3分(信息不足难以解决)的难题,最终从剩下的“简单”和“中等”题目中筛选出了这500道题。
这一行为让 OpenAI 同时扮演了“选手”和“裁判”的双重角色。他们先是根据自己的理解和能力,定义了“合理”的比赛场地,然后在这片对自己有利的场地上进行比赛并宣布胜利。这种做法无疑削弱了测试的客观性和公正性。如果我们去查看原始的、未经筛选的SWE-bench排行榜,会发现结果可能大相径庭,在某些版本中,Claude 的表现甚至优于 GPT-5

从IOI金牌到产品宣传:OpenAI的营销之道

这种“选择性展示”的策略似乎是 OpenAI 营销手册中的一贯手法。不久前,OpenAI 宣布其内部模型在国际信息学奥林匹克竞赛(IOI)中斩获金牌,表现惊人。这一成就被广泛报道,让公众对 ChatGPT 的能力产生了更高的期待。
然而,关键在于,取得这一成就的是 OpenAI 内部专用于研究的、可能更大、更昂贵的“实验室版本”,而非普通用户日常使用的公开版本 ChatGPT。通过宣传顶级模型的极限性能,OpenAI 成功地为整个品牌和产品线塑造了“遥遥领先”的光环,但这种光环与用户的实际体验之间可能存在着不小的差距。

超越跑分:我们应该如何看待AI的进步?

GPT-5 的跑分争议,是整个 AI 行业发展过程中的一个缩影。它提醒我们,在为 人工智能 的飞速进步欢呼的同时,也必须保持清醒和审慎。
当然,也有观点认为,纠结于零点几个百分点的测试差异意义不大。对于广大用户而言,模型的实际使用成本和综合体验或许是更重要的“硬指标”。从价格上看,GPT-5 的API成本远低于 Claude Opus,这本身就是一种强大的市场竞争力。
最终,基准测试只是衡量 AI 能力的一个维度,而非全部。作为用户和观察者,我们需要学会辨别数字背后的真相,理解不同测试的局限性,并综合评估模型的性能、成本、易用性和安全性。AI 的未来充满了无限可能,而要真正把握其脉搏,我们需要更全面、更深入的 AI资讯 和洞察。想了解更多关于 AGILLM 和前沿 AI新闻 的深度解读,可以访问像 AIGC.bar (https://aigc.bar) 这样的专业门户,获取更立体、更真实的行业图景。
Loading...

没有找到文章