谷歌MoR架构详解：2倍推理提速，Transformer杀手真的来了吗？

type

status

date

slug

summary

引言：大模型时代的“效率困境”与新破局者

人工智能（AI） 领域正经历由大模型（LLM）驱动的深刻变革。然而，模型能力的飞跃式提升，也带来了巨大的计算与内存开销。动辄数千亿的参数规模，使得训练和推理成本高昂，成为阻碍AGI技术广泛应用的“拦路虎”。在Transformer架构一统江湖的背景下，业界一直在寻找更高效的解决方案。

近期，谷歌DeepMind再次投下重磅炸弹，推出了名为Mixture-of-Recursions (MoR) 的新型LLM架构。该架构声称能在显著减少参数量的同时，实现高达两倍的推理速度提升，一经发布便被冠以“Transformer杀手”的称号。这究竟是夸大其词的宣传，还是真正预示着下一代模型架构的到来？本文将为您深入剖析MoR的核心技术与颠覆性潜力。

MoR架构的核心思想：递归与路由的巧妙融合

传统的LLM像一个庞大而固定的工厂，无论任务简单与否，所有数据都要走完每一道工序。而MoR则像一个智能调度系统，它引入了一种全新的理念：按需分配计算资源。

其核心思想是将两种高效技术——参数共享和自适应计算——在一个统一框架内协同工作。

参数共享 (Parameter Sharing)：MoR基于递归Transformer，通过在不同层之间共享同一组权重（递归模块），大幅减少了模型的总参数量。这就像一个多才多艺的专家团队，可以用同一套知识解决不同阶段的问题，而不是为每个阶段都雇佣一批新人。

自适应计算 (Adaptive Computation)：这是MoR的点睛之笔。它为每个token（可以理解为文本中的一个单词或字符）引入了一个动态路由机制。模型可以自主决定一个token需要“思考”多深，即让其经历多少次递归计算。简单的token可能一次递归就“想明白了”，提前退出计算；而复杂的token则会进入更深层次的递归，获得更充分的处理。

递归级缓存 (Recursion-wise Caching)：传统的KV缓存会存储所有token的信息，导致内存压力巨大。MoR则根据每个token的动态递归深度，只缓存那些仍在“思考”的token的键值对。这种精准的缓存策略，极大地降低了内存访问开销，是实现推理加速的关键。

通过这三项优化，MoR实现了“用小模型的成本，获得大模型的质量”这一理想目标。

动态路由：让模型学会“按需思考”

MoR的灵魂在于其动态路由系统，它让模型从一个“一刀切”的处理器，进化为一个懂得“因材施教”的思考者。研究人员主要实现了两种路由策略：

专家选择路由 (Expert-Choice Routing)：在每个递归步骤中，路由系统会像一个“漏斗”一样，筛选出最需要进一步处理的“复杂”token，让它们进入下一轮计算，而“简单”的token则被提前“毕业”。这种方式效率极高，但需要精巧的技术来解决训练中的因果性难题（即不能让模型“偷看”未来的信息来做决策）。

Token选择路由 (Token-Choice Routing)：在这种策略下，每个token在计算开始前就“自己决定”要经历的总递归深度。这种方式更简单直接，但为了避免所有token都涌向少数几个深度，需要引入负载均衡机制来确保计算资源被均匀利用。

实验表明，专家选择路由在性能上表现更优，它更精细的粒度控制带来了更好的模型表现。这种让模型自主决策计算深度的能力，与人工智能领域新兴的“内部思考”和“推理”研究方向不谋而合。

实验数据解读：MoR的性能与效率优势

空谈不如实证。谷歌DeepMind通过详尽的实验，展示了MoR架构的强大实力。

更少参数，更优性能：在相同的训练计算量（FLOPs）下，一个参数量减少近50%的MoR模型，其性能（如少样本学习准确率）反而超越了标准的Transformer基线模型。这意味着MoR能更高效地利用计算资源，用更少的“脑细胞”学到更多知识。

更高吞吐，更快推理：这是MoR最引人注目的优势。得益于动态路由和递归级缓存，大量token可以提前退出计算，显著减少了后续步骤的计算量和内存占用。实验显示，在特定配置下，MoR的推理吞吐量最高可达标准Transformer的2.06倍。对于实际应用部署而言，这意味着更低的延迟和更少的服务器成本。

卓越的可扩展性：MoR的优势并非昙花一现。在从1.35亿到17亿参数的多种模型规模下，MoR都稳定地优于递归基线。并且随着模型规模的扩大，其相对于标准Transformer的效率优势愈发明显，证明了它是一种适合未来超大规模模型的可扩展架构。

MoR是真正的“Transformer杀手”吗？

尽管MoR展现了巨大的潜力，但“Transformer杀手”的称号或许为时尚早。

支持方认为，MoR直击当前LLM的核心痛点——效率。它在参数、计算和内存三个维度上实现了全面优化，提供了一条通往更高效、更经济、更智能AI的清晰路径。其动态计算模式也为探索更具认知能力的模型打开了大门。

但挑战依然存在。首先，Transformer拥有一个极其庞大和成熟的生态系统，任何新技术想要取而代之都非一朝一夕之功。其次，MoR的性能对路由和缓存策略的选择较为敏感，如何在性能和效率之间取得最佳平衡，仍需进一步探索。最后，为了追求极致的吞吐量，模型性能会有轻微的牺牲，这种权衡是否在所有场景下都适用，还有待检验。

结论与展望

毫无疑问，谷歌DeepMind的MoR架构是大模型领域一次意义重大的创新。它通过将参数共享与自适应计算的精妙结合，为解决LLM的可扩展性挑战提供了一个优雅且强大的范例。它证明了模型不必“大力出奇迹”，而是可以学会“聪明地工作”。

MoR或许不会立刻“杀死”Transformer，但它无疑吹响了变革的号角，为未来的AI架构指明了一个新的方向——更高效、更动态、更智能。对于关注AI资讯和大模型发展的从业者和爱好者来说，MoR的出现无疑是一个激动人心的信号。

想了解更多前沿AI新闻和技术动态，获取最新的AI日报和Prompt技巧，欢迎访问一站式AI门户网站 https://aigc.bar 获取最新信息。