国产AI新巅峰:上海交大开源方案攻克“人类最后考试”
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)领域,一场无声的竞赛正以前所未有的速度激烈进行。近日,一项来自中国团队的重磅研究成果,彻底点燃了全球科技圈。上海交通大学联合深势科技团队开源的全新AI方案,在被誉为“人类最后的考试”(HLE)的超高难度基准测试中,历史性地突破了30分大关,取得了32.1%的惊人成绩,一举超越了此前由OpenAI、谷歌等巨头保持的记录。这不仅是大模型能力的一次飞跃,更是开源力量的伟大胜利。
这一成就的核心,是名为X-Master的工具增强推理智能体和X-Masters的多智能体工作流系统。更令人振奋的是,这一整套顶尖方案已完全开源,为全球的AI研究者和开发者提供了宝贵的资源。想要获取更多类似的前沿AI资讯和深度解读,欢迎访问AI门户网站 aigc.bar。
解构X-Master:如何让开源模型变身超级智能体
此次研究的一大亮点,是它并没有使用最顶尖的闭源模型,而是选择了开源大模型DeepSeek-R1作为推理核心。即便R1在函数调用等方面尚有不足,但通过X-Master框架的巧妙设计,其潜力被极大地激发出来。
X-Master的核心理念是模拟人类科学家的动态解题过程,在内部思考和外部工具调用之间无缝切换,形成一个高效的“共生循环”:
* 内部推理:智能体首先分析问题,形成初步的思考和计划。
* 外部交互:当遇到仅靠内部知识无法解决的难题时,X-Master会将行动计划编写为Python代码。这些代码在一个安全的沙盒环境中执行,可以调用强大的计算库(如NumPy)或团队专门设计的网络搜索工具。
* 反馈学习:代码的执行结果会作为新的信息,反馈给智能体,丰富其知识库,并指导下一轮的推理。
为了让非智能体特性的模型学会这种行为,团队引入了一种名为“初始推理引导”的机制。它在模型开始思考前,植入一段以第一人称写的“自我陈述”,例如“我能够通过访问外部工具来解决问题”、“我会用代码与环境交互”。这种巧妙的“心理暗示”有效地引导模型相信并运用自己被赋予的新能力,即使没有经过专门的微调,也能自主地执行复杂的智能体任务。
X-Masters工作流:1+1>N的多智能体协作力量
如果说X-Master是单个超级士兵,那么X-Masters就是一支纪律严明、协同作战的特种部队。这是一个精心设计的“分散-堆叠”式多智能体工作流,旨在系统性地提升问题解决的广度与深度。
该工作流主要分为两个阶段:
- 分散阶段(Disperse):此阶段的目标是“广度优先”,拓宽解题思路。多个扮演“求解器”(Solver)角色的X-Master实例会并行工作,从不同角度生成多样化的解决方案。同时,一个“批评者”(Critic)智能体会审视这些方案,指出潜在的缺陷和错误。
- 堆叠阶段(Stack):此阶段的目标是“深度优先”,对已有思路进行提炼和升华。首先,“重写器”(Rewriter)智能体会综合所有求解器和批评者的输出,整合成一个更完善、更强大的解决方案。最后,由“选择器”(Selector)智能体从最终方案中做出裁决,选出最佳答案。
这种架构类似于强化学习中的探索与利用策略,通过结构化的集体智慧,将单一智能体的能力放大到了一个全新的高度。
“人类最后的考试”:为何如此重要?
HLE(Humanity’s Last Exam)测试集由AI安全中心和Scale AI联合发起,被公认为目前最难的AI基准测试之一。其题目均达到研究生及以上难度,由全球500多家顶尖机构(包括OpenAI、谷歌DeepMind等)的上千名学者提供,并经过严格筛选,确保无法通过简单的网络搜索找到答案。
测试内容包罗万象,涵盖数学、物理、生物医药、工程、社科等100多个细分学科,许多题目还包含复杂的图表、化学结构式甚至古代文字,对模型的综合理解、多模态分析和深度推理能力提出了极致的考验。在它刚发布时,没有任何模型的得分能超过10%。正因如此,X-Masters能取得32.1%的成绩,才显得如此石破天惊。
性能碾压:开源方案的深远影响
实验结果清晰地展示了X-Masters的强大实力。与DeepSeek-R1基线模型相比,X-Masters在所有问题类别上都实现了显著的性能提升。消融研究也证明了其工作流中每一步的价值:
* 工具增强(求解器)带来了3.4%的准确率提升。
* 迭代优化(批评者和重写器)在此基础上又增加了9.5%。
* 最终选择(选择器)将成绩推向了32.1%的新纪录。
更值得注意的是,在专业性极强的生物学/医学领域,X-Masters的表现甚至超越了许多配备了海量专业工具的特定领域AI系统。这充分证明,一个优秀的通用智能体框架,即使只使用少数基础工具,也能通过高效的推理和协作流程,解决极其复杂的专业问题。
结论
上海交大与深势科技的这项研究,不仅仅是在一个高难度榜单上刷新了记录。它更重要的意义在于,为人工智能的发展,特别是AGI(通用人工智能)的探索,提供了一条清晰且高效的技术路径。它证明了通过精巧的框架设计和多智能体协作,我们可以将现有开源大模型的潜力发挥到极致,甚至在某些方面超越资源雄厚的闭源模型。
这项成果的开源,无疑将激发全球AI社区的创新浪潮,推动更多强大的LLM应用和智能体的诞生。对于关注AI新闻和未来科技趋势的人来说,这是一个不容错过的里程碑事件。想持续追踪AI日报和最新的Prompt工程技巧,探索AI变现的可能,请持续关注 aigc.bar 为您带来的前沿报道。
Loading...