大模型被短语难住？最新AI新闻剖析AGI语义推理硬伤

type

status

date

slug

summary

语义推理的“阿喀琉斯之踵”：什么是多词表达（MWE）

在自然语言处理（NLP）领域，多词表达（Multiword Expressions，简称 MWE）一直被视为一块难啃的硬骨头。所谓 MWE，指的是那些由多个单词组成、但其整体语义无法通过各个组成部分简单叠加得到的语言现象。

例如，英语中的“Kick the Bucket”（意为去世，而非字面上的“踢桶”）、“Rocket Science”（意为极其复杂的事，而非“火箭科学”），或者中文里的“吹牛皮”、“扯后腿”等。这些表达在日常语言中无处不在，它们的准确理解高度依赖于特定的语境、社会惯例以及人类的常识。

长期以来，如何让人工智能系统理解这些短语，一直是研究的痛点。很多时候，我们以为openai的chatGPT或claude等前沿模型已经能够流利地与人类对话，就代表它们真正掌握了语义。但实际上，这种“理解”可能只是一种表面的统计拟合。为了验证这一猜想，研究人员提出了全新的评估框架——SemanticQA。

SemanticQA框架：拆解大模型的“真理解”与“假套路”

为了系统性地评估大模型在短语语义理解上的真实水平，SemanticQA 并没有采用传统的单一任务测试，而是将短语语义理解拆解为三种互补的“原子操作”：

抽取（Extraction）：要求模型从给定的句子中，精准地识别并定位出目标短语的物理边界。这考验的是模型对短语结构和句法地位的识别能力。

分类（Categorization）：判断该短语属于哪种特定的语义关系或类型。这考察的是模型对语义关系的结构化归类能力。

释义（Interpretation）：在给定的语境下，用通顺的自然语言生成该短语的准确含义。这检验的是模型将抽象语义转化为具体表达的生成能力。

同时，该基准测试覆盖了四类最典型的短语难题：习语（Idiomatic Expressions）、固定搭配（Lexical Collocations）、名词复合结构（Noun Compounds）和动词多词表达（Verbal MWEs）。

这种“操作对齐”（Operation-Aligned）的设计非常巧妙。同一个短语实例在不同的任务中被统一建模，并使用固定的提示模板。这意味着，如果一个模型真的“理解”了某个短语，它应该在抽取、分类和释义这三个维度上表现出高度的一致性。如果它只能在某一项任务中拿高分，而在其他任务中表现糟糕，那只能说明它是在“套路”式地应付格式，而非真正理解。

核心发现：能分类却抽不对，大模型在玩“文字游戏”？

SemanticQA 对包括 GPT-5、Claude Sonnet、DeepSeek-R1 和 Gemini 2.5 Pro 在内的十余个主流开源与闭源模型进行了系统评估，得出的结论令人大跌眼镜：即便是最顶尖的模型，在短语语义推理上也存在系统性的能力割裂。

首先，最显著的问题是“任务间的一致性极差”。以 GPT-5 为例，在习语分类任务中，它能够达到 85.4% 的准确率；然而，在要求其从句子中精确抽取同一个习语时，精确匹配率却降到了 78.7%；而在释义任务中，衡量其生成质量的相似度指标更是惨不忍睹。

这种“能分类却抽不对”的现象非常普遍。这表明大模型在处理短语时，往往只是依靠上下文中的表面统计模式去“猜”一个大概的类别，或者生成一段看起来合理的解释，但它们根本没有在底层建立起关于这个短语边界的清晰表示。

其次，随着分类粒度的加深，模型的推理能力呈断崖式下跌。在日常评估中，模型在面对 2 到 4 个粗粒度分类时表现良好。然而，当 SemanticQA 将分类难度提升到 16 个细粒度语义类别时，模型的表现急剧退化。例如，DeepSeek-R1 的分类准确率直接从 81.7% 跌落至 35.4%，跌幅高达 46.3 个百分点。这再次证明，大模型并没有真正掌握细粒度的语义归纳能力，一旦脱离了高频共现的统计舒适区，其推理大厦便会瞬间瓦解。

级联效应：上游一步错，下游步步错

在实际的AI应用场景中，语义处理往往不是孤立的，而是以流水线（Pipeline）的形式存在。例如，一个智能客服系统需要先从用户的输入中“抽取”出核心短语，然后再对该短语进行“释义”或“分类”以执行下一步指令。

SemanticQA 专门设计了组合推理任务来模拟这种多步流程，结果揭示了可怕的“多米诺骨牌效应”。

实验显示，一旦上游的抽取任务出现轻微的边界偏差，下游的释义质量就会大幅度滑坡。即使是功能强大的 GPT-5，在词汇搭配的组合任务中，虽然抽对后的条件释义相似度可达 41.8%，但由于上游抽取的整体准确率仅有 41.3%，导致最终端到端的整体释义相似度被拖累至仅有 17.3%。

更棘手的是，研究发现，简单的少样本提示（Few-Shot）并不能弥补这种结构性的逻辑误差。大模型缺乏对中间步骤的自我校验与纠错能力。对于正在尝试通过大模型构建复杂业务流、实现AI变现的开发者来说，这是一个必须正视的工程挑战：单点任务的高分，在多步级联的实际应用中可能会被无限放大为灾难性的失败。

从静态 Evals 到 Agent 时代：评估体系的范式转移

这项研究虽然始于 2023 年并于最近录用，但它所揭示的“级联失效”问题，在如今 2026 年的 Agent（智能体）语境下显得尤为关键。

在早期的大模型应用中，我们习惯于使用静态的基准测试（Static Evals）来给模型打分。然而，随着 AI Agent 走向长时运行和多步骤工具调用，静态评估的局限性完全暴露了出来：

错误沿链路传播叠加：Agent 执行的是一个连续的决策轨迹。第一步的语义理解偏差，会被作为状态写入上下文，并在后续的执行中不断累积。可能在第三步产生的微小幻觉，直到第七步才会彻底爆发，导致整个任务彻底失败。静态的分数对此完全无能为力。

执行轨迹的“黑盒化”：两个得分相同的模型，其内部的执行轨迹可能完全不同。一个可能是扎扎实实地理解了每一步，另一个则可能仅仅是靠运气蒙对了答案。在商业化落地中，后者不确定性带来的风险是不可接受的。

因此，在 Agent 时代，我们需要从静态的“能力截面测试”转向动态的“自适应行为评估”。评估一个模型或 Agent 的好坏，不再是看它在一张固定试卷上能得多少分，而是要看它的执行轨迹是否可审计、安全护栏是否有一票否决权，以及评估体系本身是否能够伴随任务的演进动态进化。

结语与未来展望

语义推理不是黑盒系统里的灵光一现，而是可分解、可检验以及可追溯的系统能力。ACL 2026 Oral 的这项工作通过 SemanticQA 框架，为我们提供了一个清醒的警示：人工智能距离真正“理解”人类语言，尤其是在细粒度短语语义和多步推理层面，依然有很长的一步路要走。

对于开发者而言，在设计Prompt或构建基于openai、chatGPT、claude等技术的应用时，不能盲目相信模型的单点高分表现，而应设计更为严密的中间状态校验机制。

如果您想获取更多前沿的AI日报、深度的技术解读以及实用的AI变现指南，欢迎持续关注国内专业的AI门户——AIGC.bar，获取一手AI资讯与行业动察。