AI刷题已成过去?交大新基准用Nature封面拷问大模型真实能力,欢迎访问AI门户www.aigc.bar获取最新AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
引言:当AI学会“刷题”,我们如何看清真相?
近年来,从 OpenAI 的 GPT-4o 到谷歌的 Gemini,各大 LLM(大模型) 在各种基准测试中高歌猛进,榜单分数屡创新高。然而,一个尖锐的问题也随之浮出水面:当AI已经将现有的“题库”烂熟于心,我们还能相信这些分数吗?这不仅是 AI新闻 关注的焦点,也是衡量 人工智能 真实进展的关键。
为了刺破“刷分”泡沫,上海交通大学王德泉教授课题组提出了一个极具创意的解决方案——MAC(多模态学术封面)基准。他们不再使用静态、固定的数据集,而是将目光投向了知识更新最快的前沿阵地:顶级科学期刊的封面。这不仅是一次评测方法的革新,更是对当前 大模型 真实理解能力的一次深度拷问。想了解更多前沿 AI资讯,欢迎访问AI门户网站
https://www.aigc.bar
。## 为什么现有AI评测正在“失灵”?
传统的AI基准测试,如MMMU,曾是评估模型能力的重要标尺。但随着技术的飞速发展,它们正面临严重的“数据污染”问题。简单来说,这些测试题很可能已经被提前“喂”给了像 ChatGPT 或 Claude 这样的模型。模型可能不是真正“理解”了问题,而只是在庞大的记忆库中找到了最优答案。
这种“应试”现象导致模型分数虚高,无法反映其在面对全新、未知问题时的泛化和推理能力。我们需要一个永远跑在AI前面的“考官”,一个能持续出新题、难题的动态系统,而MAC基准正是为此而生。
## MAC基准:用前沿科学打造的“照妖镜”
MAC基准的核心思想既简单又巧妙:用不断演进的科学知识来测试不断进化的AI。
研究团队选取了《Nature》、《Science》、《Cell》等188种世界顶级科学期刊的最新封面作为测试材料。这些封面由顶尖科学家和艺术家联手打造,每一张都高度浓缩了一项前沿的科学发现,充满了复杂的隐喻和抽象的视觉表达。
这项测试要求 大模型 完成两项核心任务:
* 看图选文:根据一张期刊封面,从四个相似的封面故事描述中选出唯一正确的选项。
* 看文选图:根据一段封面故事描述,从四张风格或主题相近的封面图片中选出最匹配的一张。
这不再是简单的物体识别,而是对AI跨模odal(视觉到文本)深层推理能力的终极考验。模型必须理解艺术化图像背后的科学内核,才能做出正确判断。
## 精心设计的“语义陷阱”:不止是看图说话
MAC基准最精妙之处在于其“干扰项”的设计。为了防止AI通过识别“药丸”、“细胞”等浅层视觉元素蒙混过关,研究者利用先进的嵌入模型(如CLIP)精心筛选出三个与正确答案在“表面上”极为相似的“语义陷阱”。
例如,若正确答案是关于“癌症耐药性机制”的封面,干扰项可能会是“癌症的形成机理”或“癌细胞的结构”。这些选项都与“癌症”相关,但核心科学概念截然不同。只有真正理解了图像与文字之间深层逻辑关联的模型,才能避开这些陷阱。事实证明,即便是顶尖的 大模型,也常常在这些陷阱面前“翻车”。
## 顶尖AI的“滑铁卢”:GPT-4o也难过关
评测结果令人震惊。即便是业界公认的最强模型之一,在MAC-2025测试集上的准确率也仅有79.1%,这与它们在其他基准上近乎完美的表现形成了鲜明对比。而强大的开源模型Qwen2.5-VL-7B的准确率更是只有56.8%。
案例分析发现,像GPT-4o这样的模型能轻易识别出封面中的具体元素,却无法将这些元素与封面故事所探讨的核心科学概念(如“耐药性”)联系起来。这暴露了当前 人工智能 的一个关键短板:强大的感知能力背后,是相对薄弱的深度推理和抽象理解能力。这无疑是 AI日报 和各大科技媒体需要深入探讨的话题。
## DAD方法:教AI像专家一样“先看再想”
面对挑战,研究团队并未止步于发现问题,而是提出了名为 DAD(Describe-and-Decide) 的解决方案。这个方法的灵感来源于人类专家的思考模式:
- 描述(Describe):首先,利用一个多模态大模型(如GPT-4o)对封面图片进行详尽的、不带偏见的视觉描述。
- 决策(Decide):然后,将生成的纯文本描述连同问题选项,一同交给一个专门的、推理能力更强的语言模型进行分析和最终选择。
这种“分工协作”的模式,通过在推理上投入更多“思考时间”,显著提升了模型的准确率。它证明了结构化的思维链(Chain-of-Thought)对于解决复杂的多模态科学问题至关重要。
## 双重动态机制:永不过时的AI“考官”
传统基准的最大弊病在于其“一次性”。而MAC通过两大动态机制,确保了其长久的挑战性和有效性:
- 动态数据:科学本身在不断进步。实验证明,所有模型在处理最新期刊(MAC-2025)上的表现,都明显差于处理早期期刊(MAC-Old)。这意味着,只要科学还在发展,MAC就能源源不断地产生天然的、高质量的新考题。
- 动态问题构建:AI技术的发展不仅能催生更强的“考生”,也能创造更强的“出题人”。研究者发现,使用更新、更强的AI工具(如SigLip2)来生成语义干扰项,可以使同一套题目的难度瞬间提升,所有模型的准确率都应声下降。
这两种机制相结合,让MAC基准能够与 AGI 的发展“齐头并进”,成为一个永不过时的“试金石”。
结论:迈向真正的智能,我们需要更真实的标尺
上海交大团队的MAC基准,为我们提供了一个全新的视角来审视 大模型 的能力边界。它告诉我们,在通往通用 人工智能 的道路上,简单的模式匹配和信息检索远远不够,深度的、跨领域的抽象推理能力才是真正的难关。
当AI的能力日益强大,我们需要的正是像MAC这样能够与科学和技术共同进化的评测体系。它不仅能帮助我们更真实地了解AI的现状,也为未来AI模型的优化指明了方向。想要持续追踪 人工智能 的最前沿动态,学习如何撰写高效的 Prompt,探索 AI变现 的可能性,请持续关注AI门户
https://www.aigc.bar
。Loading...