谷歌MoR架构详解：Transformer时代落幕？新一代大模型魔王登场 - AIGC.Bar|您的人工智能门户

type

status

date

slug

summary

为什么我们需要超越Transformer？

Transformer的成功毋庸置疑，但其核心的自注意力机制也带来了无法回避的“原罪”。其计算和内存复杂度会随着输入序列长度的增加而呈二次方增长，这意味着更长的上下文窗口将带来难以承受的算力开销。

正如Mamba架构作者Albert Gu所言，Transformer的能力局限性巨大。谷歌产品负责人Logan Kilpatrick也公开指出，注意力机制不可能实现无限上下文，真正的突破必须来自核心架构的全面创新。简单来说，AI的发展不能永远依赖于“大力出奇迹”的暴力美学，我们需要更优雅、更高效的解决方案。MoR正是在这样的背景下应运而生，它并非对现有模型的修补，而是一场彻底的底层革命。

MoR架构的核心魔法：递归混合与动态计算

传统Transformer就像一条庞大的工业流水线，无论零件大小、重要与否，都必须走完所有工序。而MoR则像一支高效的特种部队，能够根据任务难度，智能地调配资源，精准打击。其核心创新在于两大理念：

1. 智能分流：并非所有Token生而平等

在处理文本时，LLM会将句子分解为Token。但像“的”、“是”、“在”这类高频但信息量低的词，与“递归”、“架构”、“量子”这类复杂的专业词汇，显然不应消耗同等的计算资源。

MoR的精妙之处在于引入了一个小型路由器（Router）。这个路由器会在每一轮计算后，为每个Token的隐藏状态“打分”。只有得分高的、被认为需要进一步深度处理的Token，才会进入下一轮循环计算；而那些简单的、已经处理完毕的Token则会“提前毕业”，直接退出循环。这种“因材施教”的动态计算方式，极大地节省了不必要的算力浪费。

2. 循环复用：用“特种部队”取代“人海战术”

传统Transformer通过不断“堆叠”新的、独立的网络层来增强模型深度和能力。这种方式虽然有效，但也导致了模型参数量的爆炸式增长和内存的巨大消耗。

MoR则反其道而行之，采用了一种“循环复用”的策略。它设计了一个共享的、固定的计算模块（a shared block），复杂的Token可以根据需要在这个模块中循环处理多次（例如最多4次）。一旦路由器判断该Token处理完成，它就会立即跳出循环。这种设计用一个精干的“递归块”代替了数十甚至上百个独立的层，极大地压缩了模型参数量，实现了真正的“瘦身提速”。

深度解析：MoR的两大关键技术组件

要实现上述高效的动态计算，MoR依赖于两大协同工作的技术组件：路由机制和KV缓存策略。

路由机制（Routing）：谁来决策计算深度？

为了决定哪些Token需要进行更深层次的计算，MoR设计了两种不同的路由策略：

专家选择路由 (Expert-choice routing): 在此模式下，每一轮递归都可以看作一个“专家”。这个专家会主动从所有待处理的Token中，挑选出它认为最值得处理的top-k个Token。这种方式能很好地平衡计算负载，但存在微小的信息泄露风险。

Token选择路由 (Token-choice routing): 这种模式则赋予了Token“自主权”。在计算开始时，每个Token就会根据自身的初始状态，决定自己需要经历多少次递归。这种方式天然避免了信息泄露，但可能导致计算负载不均。

这两种机制各有千秋，研究人员可以根据具体任务和性能要求进行权衡选择。

KV缓存策略（Caching）：如何精简“记忆”成本？

KV缓存是Transformer模型在推理时最主要的内存开销来源。MoR针对其递归特性，提出了创新的缓存策略：

按递归层缓存 (Per-recursion caching): 这是MoR的“杀手锏”。只有当一个Token被路由到某个递归层进行计算时，模型才会在该层为它生成并存储键值（KV）对。这意味着简单的Token只会产生很少的缓存，而复杂的Token才会产生多层缓存。通过这种方式，MoR成功地将KV缓存的内存占用和I/O负担压缩至原来的一半左右。

跨递归共享 (Cross-recursion sharing): 另一种策略是只在第一个递归层生成所有Token的KV对，然后在后续所有递归层中共享使用。这种方式虽然也能减少部分计算，但在内存效率上远不如前者。

性能实测：MoR如何碾压传统模型？

理论上的优雅设计最终需要通过实验数据来验证。谷歌DeepMind的论文展示了MoR在多个维度上的压倒性优势：

更高的训练效率： 在相同的训练算力（FLOPs）预算下，MoR模型用更少的参数，却取得了比标准Transformer更低的验证损失和更高的小样本准确率。

更快的推理速度： 结合专门的“深度批处理”技术，MoR能够充分利用GPU，让提前退出的Token位置被新任务即时填补。实验显示，在360M参数规模下，MoR的推理吞吐量最高可达标准Transformer的2.06倍。

卓越的可扩展性： MoR的优势随着模型规模的扩大而愈发明显。在超过360M参数后，其性能全面超越了递归Transformer和标准Transformer，证明了其作为下一代基础架构的巨大潜力。

结论：AI架构的范式转移，新魔王已然降临

MoR的问世，不仅仅是一次模型性能的提升，它更代表着一种AI设计哲学的范式转移——从追求“更大更强”的规模竞赛，转向探索“更智更效”的计算艺术。它证明了通过精巧的结构设计，我们可以在不牺牲甚至提升模型能力的前提下，大幅降低对算力和内存的依赖。

递归混合、动态路由、智能缓存，这些关键词共同描绘了下一代大模型的发展蓝图。谷歌DeepMind的MoR架构，无疑是这张蓝图的早期范本，也是向整个行业发出的明确信号：Transformer的时代或许尚未终结，但一个更强大、更高效的新魔王，已然降临。

想要探索更多前沿的AI资讯和技术，深入了解大模型（LLM）的最新动态，欢迎访问 [AIGC.Bar](https://aigc.bar)，您的一站式人工智能门户。