GPT-5跑分疑云：AI新闻揭秘其如何“跳过”难题超Claude

type

status

date

slug

summary

74.9% vs 74.5%：一场精心设计的“胜利”？

在OpenAI的发布会上，一张对比图表将GPT-5推上了“全球代码能力第一”的宝座。其在SWE-bench Verified测试中74.9%的通过率，以微弱的0.4%优势超过了竞争对手Anthropic的Claude Opus 4.1（74.5%）。

然而，魔鬼藏在细节中。深入挖掘后发现，这场“胜利”并非基于同一起跑线。

OpenAI的选择性测试：OpenAI承认，他们的测试并未覆盖SWE-bench Verified的全部500道题。由于其“基础设施无法运行”，他们直接跳过了23道题目，最终的74.9%是基于剩余477道题计算得出的。

Claude的全盘应战：相比之下，Anthropic的Claude则完成了全部500道题的挑战，其74.5%的得分是实打实的“全科成绩”。

这23道被跳过的题目，并非无足轻重。据分析，它们恰恰是数据集中公认最困难、最耗时的一批“硬骨头”。这些任务往往需要极高的逻辑推理和复杂问题解决能力，是衡量一个大模型能力上限的试金石。

何为SWE-bench？AI界的“程序员高考”

要理解这场争议的核心，我们必须先了解SWE-bench是什么。

你可以将其想象成AI界的“程序员高考”。它并非简单的算法题，而是源自GitHub上真实开源项目的软件工程问题。模型需要像人类程序员一样，阅读问题描述、理解复杂的代码库、修复bug，并且最关键的是——不能引入新的bug。

由于其极高的难度和真实性，早期AI模型在此测试上得分惨淡。为了更好地评估新一代模型的细微进步，OpenAI与SWE-bench的作者合作，推出了一个经过人工筛选的子集——SWE-bench Verified。他们剔除了一些描述模糊的题目，最终形成了这500道“标准题”。讽刺的是，OpenAI如今却未能完整地完成自己参与制定的标准。

公平的较量？当苹果与“被切掉一块”的苹果比较

如果我们将这23道被跳过的难题按0分计算，GPT-5的真实成绩会是怎样？

一个简单的估算（74.9% × 477 / 500）显示，GPT-5在500道题全集上的得分约为71.4%。这一数字不仅未能超越Claude，反而显著落后。

这就好比一场考试，一名考生跳过了最难的压轴题，然后宣称自己的平均分更高。这种评测方式的差异，让两个分数失去了直接比较的基础。更值得注意的是，在另一个更通用的SWE-bench官方排行榜上（测试条件更严格，没有“Verified”子集），Claude 4 Opus的得分（67.6）本就领先于GPT-5（65）。

这场“技术性”超越的背后，暴露了人工智能领域“唯分数论”的潜在风险。

数字之外：对整个AI行业的警示

GPT-5的跑分风波，为所有关注AI发展的人敲响了警钟。它揭示了几个深层问题：

基准测试的公信力：当模型的开发者可以“挑选”对自己有利的测试用例时，排行榜的权威性何在？

报告的透明度：将关键信息放在不起眼的脚注中，而非在主要宣传材料中明确说明，这种做法是否会误导公众和投资者？

用户的真正需求：用户需要的是能在真实、复杂、甚至是一些极端困难场景下稳定工作的AI，而不是一个只在“精选”问题上表现优异的模型。

对于普通用户和开发者而言，这意味着我们不能再盲目相信发布会上的头条数字。我们需要更深入地了解评测方法、数据集构成以及结果背后的完整上下文。想要获取不被营销话术包装的AI资讯，洞察行业真实动态，一个中立、全面的AI门户网站就显得尤为重要。

结论：回归真实价值，而非数字游戏

总而言之，GPT-5在SWE-bench Verified上的高分是一项技术成就，但其超越Claude的说法，在严格的审视下是站不住脚的。这场争议的真正价值，在于它促使我们重新思考如何科学、公正地评估一个大模型的真实能力。

在通往通用人工智能（AGI）的道路上，真正的进步源于解决真实世界中的硬核问题，而非在精心设计的跑分游戏中取得名义上的胜利。对于每一个AI从业者和爱好者来说，保持批判性思维，关注技术背后的细节，远比追逐一个不断变化的排行榜更有意义。

想持续追踪AI行业的最新动态，获取深度、客观的AI新闻和分析，欢迎访问 https://www.aigc.bar，与我们一同见证技术的真实演进。