AI密室逃脱大考:顶尖大模型集体折戟,AGI还有多远?| AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址

引言

近年来,多模态大模型(MLLMs)的发展势如破竹,它们能看图作文、能理解视频、能与人对话,似乎正在开启通往通用人工智能(AGI)的大门。然而,当我们将这些聪明的 AI 从静态的问答题中解放出来,放入一个需要自主探索和决策的动态环境中时,它们真的还能保持“全知全能”吗?
最近,一篇来自清华大学并已入选ICCV 2025的论文,为我们提供了一个残酷而真实的答案。研究团队设计了一个名为EscapeCraft的3D密室逃脱环境,将 GPT-4oClaude 3.5 等一众顶尖 大模型 投放到这个“AI新考场”中。结果令人大跌眼镜:即便是最强的模型,通关率也不足50%,暴露了它们在空间推理和复杂规划能力上的严重短板。这不仅是一则有趣的 AI新闻,更引发了我们对 AGI 实现路径的深刻思考。

密室逃脱:不止于看图说话的AI新考场

传统的 AI 评测大多基于静态数据集,模型只需根据给定的图片或文本“答题”即可。但真实世界是动态且需要交互的。为了弥补这一差距,清华团队创造了EscapeCraft。
在这个可自动生成的3D虚拟密室中,人工智能 模型不再是旁观者,而是第一视角的“玩家”。它们需要完成一系列类似人类玩密室逃脱时的任务:
  • 自由探索:在房间内移动,转动视角,观察环境。
  • 寻找线索:从墙上的海报、桌上的纸条等处发现关键信息。
  • 获取道具:找到并拾取钥匙、工具等物品。
  • 逻辑推理:将线索与道具结合,解开谜题,例如用钥匙打开上锁的箱子。
  • 最终目标:成功打开房门,逃出密室。
EscapeCraft的精妙之处在于其高度的灵活性和可扩展性。研究者可以自由定制房间布局、道具链的长度和谜题的难度。这使得它不再是一个单一的测试,而是一个能够持续评估 LLM 进化过程的通用平台,为未来的智能体研究提供了坚实的基础。

从“答对”到“会想”:为何过程比结果更重要?

EscapeCraft最核心的创新,在于它将评估重点从“任务是否成功”转移到了“任务是如何完成的”。换言之,它关心的是 AI 的“思考过程”,而不仅仅是最终的“答案”。
为此,研究团队设计了一系列创新的过程性评测指标,其中最具代表性的是 意图与结果一致性(Intent-Outcome Consistency)。这个指标衡量的是,AI 的行为是否与它自己宣称的意图相符。
评测结果揭示了一个惊人的事实:大量的成功是偶然的。例如,一个 大模型 可能在日志中记录“我打算与电视互动”,但它的实际操作却是移动到电视附近,并“意外地”拾取了旁边的关键钥匙。虽然它拿到了道具,但这并非出于真正的理解和规划,而更像是“瞎猫碰上死耗子”。数据显示,即便是表现最好的 GPT-4o,在稍有难度的关卡中,其成功的交互行为也仅有约26.5%是出于“真正的理解”。
这种对过程的剖析,让我们能够区分 AI 的“幸运”与“智能”,真正衡量它是否“想清楚了”,而不仅仅是“做对了”。

顶尖大模型集体“翻车”:暴露了哪些核心短板?

当今最热门的 大模型,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet,都在EscapeCraft中接受了严峻的考验。结果显示,没有一个模型能够轻松应对。
它们的失败方式五花八门,共同揭示了当前 AI 技术的几个核心短板:
  1. 严重的视觉感知错误:模型常常“看走眼”。它们会试图与墙壁、沙发等不可交互的物体进行互动,理由是“沙发下可能藏着钥匙”。更有甚者,模型已经看到了关键道具,但在移动过程中,由于视角控制不佳,会将其“移出视野”,然后忘记它的存在。
  1. 混乱的推理逻辑:即便“看到”了,也不代表“想明白”了。在Claude 3.5的失败案例中,超过60%的问题都出在推理逻辑上。模型会陷入死循环,在房间的某个角落里“卡住”;或者已经拿到了钥匙,却不知道应该去开门,反而继续在房间里漫无目的地游荡。
  1. 脆弱的空间记忆能力:这是最致命的短板。模型似乎无法在脑海中构建一个稳定的3D空间地图。它们经常迷失方向,反复回到已经探索过的区域,表现出极差的空间感。当线索从门边移到房间的另一头时,GPT-4o便无法正确利用线索,最终导致任务失败。
这些发现表明,当前 大模型 强大的语言和图像理解能力,并没有很好地转化为在三维空间中的规划和执行能力。

对未来AI发展的启示

EscapeCraft的测试结果如同一盆冷水,让我们对当前 AI 的能力有了更清醒的认识。它告诉我们,通往 AGI 的道路,绝非简单地堆砌数据和扩大模型规模就能走通的。
未来的研究必须更加关注以下几个方向:
  • 具身智能(Embodied AI):让 AI 拥有“身体”,在与环境的真实互动中学习物理规律和空间关系。
  • 空间推理与记忆:开发新的模型架构,使其能够像人类一样构建和维护对环境的心理地图。
  • 长期规划能力:提升模型在多步骤、长链条任务中的决策和执行能力,避免短视和重复行为。
对于所有关注 AI 发展的从业者和爱好者来说,EscapeCraft这样的前沿研究提供了宝贵的洞见。想要紧跟 AI 领域的最新动态和技术突破,获取第一手的 AI资讯 和深度解读,可以访问专业的 AI门户 网站,例如 [AIGC导航](https://aigc.bar),在这里你可以找到关于 ChatGPTClaude 等模型的最新教程和应用案例,激发更多关于 AI变现 和技术创新的灵感。

结论

密室逃脱挑战不仅仅是一个游戏,它已成为检验 人工智能 真实智慧的试金石。清华大学的EscapeCraft项目,以一种极具创意的方式,揭示了当今最先进 大模型 在光鲜外表下的脆弱之处。它们或许能写诗、能绘画,但在一个简单的3D房间里,却可能寸步难行。
这并不意味着 AI 的失败,恰恰相反,它为我们指明了前进的方向。从“看懂世界”到“理解并改造世界”,AI 还有很长的路要走。而正是这些挑战,才让通往 AGI 的探索之旅充满了无限的可能与魅力。
Loading...

没有找到文章