谷歌MoR架构详解:Transformer时代落幕?新一代大模型魔王登场 - AIGC.Bar|您的人工智能门户

type
status
date
slug
summary
tags
category
icon
password
网址
自诞生以来,Transformer架构就如同一位无可争议的王者,统治着整个大模型(LLM)领域。然而,随着模型规模的指数级增长,其固有的计算复杂度和惊人的资源消耗,正逐渐成为束缚人工智能(AI)发展的沉重枷锁。就在业界普遍陷入“堆算力、堆参数”的内卷困境时,谷歌DeepMind联合KAIST、Mila等顶尖机构,投下了一颗重磅炸弹——Mixture-of-Recursions (MoR) 架构
这个被誉为“Transformer终结者”的全新架构,凭借推理速度翻倍、KV缓存减半、训练成本更低的颠覆性表现,直接重塑了LLM的性能边界,预示着一个全新的AI纪元或许已经到来。

为什么我们需要超越Transformer?

Transformer的成功毋庸置疑,但其核心的自注意力机制也带来了无法回避的“原罪”。其计算和内存复杂度会随着输入序列长度的增加而呈二次方增长,这意味着更长的上下文窗口将带来难以承受的算力开销。
正如Mamba架构作者Albert Gu所言,Transformer的能力局限性巨大。谷歌产品负责人Logan Kilpatrick也公开指出,注意力机制不可能实现无限上下文,真正的突破必须来自核心架构的全面创新。简单来说,AI的发展不能永远依赖于“大力出奇迹”的暴力美学,我们需要更优雅、更高效的解决方案。MoR正是在这样的背景下应运而生,它并非对现有模型的修补,而是一场彻底的底层革命。

MoR架构的核心魔法:递归混合与动态计算

传统Transformer就像一条庞大的工业流水线,无论零件大小、重要与否,都必须走完所有工序。而MoR则像一支高效的特种部队,能够根据任务难度,智能地调配资源,精准打击。其核心创新在于两大理念:
1. 智能分流:并非所有Token生而平等
在处理文本时,LLM会将句子分解为Token。但像“的”、“是”、“在”这类高频但信息量低的词,与“递归”、“架构”、“量子”这类复杂的专业词汇,显然不应消耗同等的计算资源。
MoR的精妙之处在于引入了一个小型路由器(Router)。这个路由器会在每一轮计算后,为每个Token的隐藏状态“打分”。只有得分高的、被认为需要进一步深度处理的Token,才会进入下一轮循环计算;而那些简单的、已经处理完毕的Token则会“提前毕业”,直接退出循环。这种“因材施教”的动态计算方式,极大地节省了不必要的算力浪费。
2. 循环复用:用“特种部队”取代“人海战术”
传统Transformer通过不断“堆叠”新的、独立的网络层来增强模型深度和能力。这种方式虽然有效,但也导致了模型参数量的爆炸式增长和内存的巨大消耗。
MoR则反其道而行之,采用了一种“循环复用”的策略。它设计了一个共享的、固定的计算模块(a shared block),复杂的Token可以根据需要在这个模块中循环处理多次(例如最多4次)。一旦路由器判断该Token处理完成,它就会立即跳出循环。这种设计用一个精干的“递归块”代替了数十甚至上百个独立的层,极大地压缩了模型参数量,实现了真正的“瘦身提速”。

深度解析:MoR的两大关键技术组件

要实现上述高效的动态计算,MoR依赖于两大协同工作的技术组件:路由机制和KV缓存策略。

路由机制(Routing):谁来决策计算深度?

为了决定哪些Token需要进行更深层次的计算,MoR设计了两种不同的路由策略:
  • 专家选择路由 (Expert-choice routing): 在此模式下,每一轮递归都可以看作一个“专家”。这个专家会主动从所有待处理的Token中,挑选出它认为最值得处理的top-k个Token。这种方式能很好地平衡计算负载,但存在微小的信息泄露风险。
  • Token选择路由 (Token-choice routing): 这种模式则赋予了Token“自主权”。在计算开始时,每个Token就会根据自身的初始状态,决定自己需要经历多少次递归。这种方式天然避免了信息泄露,但可能导致计算负载不均。
这两种机制各有千秋,研究人员可以根据具体任务和性能要求进行权衡选择。

KV缓存策略(Caching):如何精简“记忆”成本?

KV缓存是Transformer模型在推理时最主要的内存开销来源。MoR针对其递归特性,提出了创新的缓存策略:
  • 按递归层缓存 (Per-recursion caching): 这是MoR的“杀手锏”。只有当一个Token被路由到某个递归层进行计算时,模型才会在该层为它生成并存储键值(KV)对。这意味着简单的Token只会产生很少的缓存,而复杂的Token才会产生多层缓存。通过这种方式,MoR成功地将KV缓存的内存占用和I/O负担压缩至原来的一半左右
  • 跨递归共享 (Cross-recursion sharing): 另一种策略是只在第一个递归层生成所有Token的KV对,然后在后续所有递归层中共享使用。这种方式虽然也能减少部分计算,但在内存效率上远不如前者。

性能实测:MoR如何碾压传统模型?

理论上的优雅设计最终需要通过实验数据来验证。谷歌DeepMind的论文展示了MoR在多个维度上的压倒性优势:
  • 更高的训练效率: 在相同的训练算力(FLOPs)预算下,MoR模型用更少的参数,却取得了比标准Transformer更低的验证损失和更高的小样本准确率。
  • 更快的推理速度: 结合专门的“深度批处理”技术,MoR能够充分利用GPU,让提前退出的Token位置被新任务即时填补。实验显示,在360M参数规模下,MoR的推理吞吐量最高可达标准Transformer的2.06倍
  • 卓越的可扩展性: MoR的优势随着模型规模的扩大而愈发明显。在超过360M参数后,其性能全面超越了递归Transformer和标准Transformer,证明了其作为下一代基础架构的巨大潜力。

结论:AI架构的范式转移,新魔王已然降临

MoR的问世,不仅仅是一次模型性能的提升,它更代表着一种AI设计哲学的范式转移——从追求“更大更强”的规模竞赛,转向探索“更智更效”的计算艺术。它证明了通过精巧的结构设计,我们可以在不牺牲甚至提升模型能力的前提下,大幅降低对算力和内存的依赖。
递归混合、动态路由、智能缓存,这些关键词共同描绘了下一代大模型的发展蓝图。谷歌DeepMind的MoR架构,无疑是这张蓝图的早期范本,也是向整个行业发出的明确信号:Transformer的时代或许尚未终结,但一个更强大、更高效的新魔王,已然降临。
想要探索更多前沿的AI资讯和技术,深入了解大模型(LLM)的最新动态,欢迎访问 [AIGC.Bar](https://aigc.bar),您的一站式人工智能门户。
Loading...

没有找到文章