Zoom联邦AI逆袭:在“人类最后的考试”中击败谷歌Gemini? | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能(AI)的竞技场上,我们通常关注的是OpenAI、Google DeepMind或Anthropic这些名字。然而,最近的一则AI新闻却让业界大跌眼镜:那个你每天用来开会的软件——Zoom,宣称在号称“人类最后的考试”(Humanity's Last Exam,简称HLE)中,击败了包括谷歌Gemini在内的顶级模型。
这不仅是一个关于分数的竞赛,更标志着企业级AI应用正在发生深刻的范式转移。Zoom究竟是如何做到的?它是真的变成了一家前沿AI实验室,还是另辟蹊径?作为关注AGI和LLM发展的AI门户,AIGC.BAR 将为您深入解读这一事件背后的技术逻辑与行业启示。
人类最后的考试(HLE):AI的终极试炼场
首先,我们需要理解Zoom这次“赶考”的试卷有多难。随着ChatGPT和Claude等大模型的快速迭代,传统的基准测试如MMLU(大规模多任务语言理解)已经逐渐失去了区分度,顶级模型的分数往往都能轻松突破90%。
为了解决“基准饱和”的问题,Scale AI与人工智能安全中心(CAIS)联合推出了HLE。这套试题包含了2500道由全球近千位专家贡献的难题,涵盖了数学、物理、生物医学、计算机科学等数十个领域。它的设计初衷就是为了让当前的AI模型“挂科”,大多数模型在此测试中的得分仅为个位数或低两位数。因此,Zoom取得的48.1%的成绩(据称比Google Gemini相关模型高出2.3个百分点),确实是一个足以引发关注的“SOTA”(最先进水平)宣称。
Zoom的秘密武器:联邦AI与智能编排
Zoom之所以能取得这一成绩,并非因为它在地下室里秘密训练了一个万亿参数的超级模型。相反,其核心在于一种被称为“联邦AI方法”(Federated AI Approach)的策略。
简单来说,Zoom并没有试图造一个更强的轮子,而是造了一辆更好的车。这套架构不依赖单一的大模型,而是将Zoom自研的小型语言模型(SLM)与OpenAI、Anthropic、Google等公司的闭源及开源模型进行了巧妙的组合。
在HLE测试中,Zoom采用了一种“探索-验证-联邦”的智能体(Agent)工作流。系统不会让单一模型直接生成答案,而是通过策略性地识别推理路径,让多个模型像辩论队一样协作:生成观点、相互挑战、修正错误,最后由一套名为“Z-scorer”的自研评分系统来整合输出。这种“三个臭皮匠,顶个诸葛亮”的策略,正是当前AI变现和落地过程中极具价值的工程化思路。
并非造轮子,而是造引擎
Zoom的这一举动揭示了SaaS企业在人工智能时代的生存哲学。对于大多数应用软件公司而言,从头训练一个前沿的基础模型既昂贵又没有必要。Zoom选择了一条更务实的路线:做最好的模型调度者。
通过联邦架构,Zoom建立了一套智能路由机制。简单的会议摘要任务交给成本低廉的自研小模型;复杂的逻辑推理则调用外部强大的LLM。据Zoom官方数据,这种混合打法能以GPT-4约6%的推理成本,达到接近的输出质量。这不仅降低了运营成本,也让Zoom在面对不同客户需求时拥有了极高的灵活性。这对于关注AI资讯和Prompt工程的开发者来说,是一个极佳的架构参考案例。
从会议工具到智能中枢的野心
Zoom如此高调地展示AI能力,显然不仅仅是为了刷榜。在疫情红利消退后,Zoom急需新的增长引擎,而AI正是那个答案。
通过发布AI Companion 3.0,Zoom正在试图撕掉“视频会议软件”的标签,转型为企业工作流的智能中枢。新版本的AI Companion主打智能体AI(Agentic AI)能力,它不再是被动地记录会议,而是能主动分析日程、跨平台(如Microsoft Teams和Google Meet)抓取信息,甚至与ServiceNow等第三方应用协作。
这种将AI深度嵌入工作流、强调“编排能力”而非单纯“模型能力”的策略,与微软和Salesforce的愿景不谋而合。谁能更好地整合模型、工具和企业数据,谁就能在未来的企业服务市场占据主导地位。
结论与展望
Zoom在HLE测试中的表现,与其说是战胜了谷歌,不如说是验证了“多模型编排”这一技术路线的巨大潜力。在大模型能力日益商品化的今天,差异化竞争的焦点正在从“谁的模型参数更大”转移到“谁能把模型用得更聪明”。
对于广大企业和开发者而言,Zoom的案例提供了一个清晰的指引:不必执着于训练自己的大模型,学会利用现有的openai、claude等资源,构建高效的智能工作流,或许才是通往AGI应用落地的捷径。
想要了解更多关于AI新闻、AI日报以及前沿技术解读,请持续关注 AIGC.BAR,我们为您提供最新鲜的AI资讯和深度的行业洞察。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)