美团LongCat升级LoZA机制:1M长文本与10倍提速深度解读 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能(AI)和大模型(LLM)竞争日益激烈的今天,长文本处理能力已成为衡量模型性能的关键指标之一。从文档分析到代码生成,用户对上下文窗口的需求不断膨胀。近日,美团龙猫(LongCat)团队发布了其最新的技术突破——全新的稀疏注意力机制 LoZA(LongCat ZigZag Attention)。这一升级不仅将模型的上下文窗口扩展至惊人的1M(100万token),更在解码速度上实现了质的飞跃。本文将深入剖析这项技术如何打破算力瓶颈,以及它对未来AGI发展的意义。
LoZA机制的核心:打破全注意力算力瓶颈
传统的大模型通常采用全注意力机制(Full Attention),其计算复杂度随着文本长度呈平方级增长($O(L^2)$)。这意味着当处理超长文本时,显存占用和推理延迟会呈指数级上升,成为制约模型扩展的巨大障碍。
美团龙猫团队提出的LoZA机制,核心思路在于“有的放矢”。它不再对所有内容一视同仁地进行高强度计算,而是通过算法区分“关键部分”与“次要部分”。LoZA并没有完全抛弃原有的多头潜在注意力(MLA)机制,而是对其进行了精细化的改造。这种策略使得模型在处理长文本任务时,既能保持对核心信息的精准捕捉,又能大幅降低计算资源的消耗。
独创的ZigZag架构:MLA与SSA的完美交错
LoZA技术的精髓在于其独特的 ZigZag(交错)结构。为了实现这一结构,研发团队采取了分步走的策略:
- 全局“体检”与筛选:首先,团队引入了一个可学习的权重参数 $\alpha$,对模型中的每一个MLA模块进行重要性评估。在训练过程中,通过冻结其他参数仅更新 $\alpha$ 的梯度,模型能够自主学习哪些模块对性能至关重要($\alpha$ 值高),哪些模块可以被简化($\alpha$ 值低)。
- 混合架构构建:根据评估结果,大约50%的低敏感度MLA模块被替换为更轻量级的 流式稀疏注意力(SSA)。SSA的计算复杂度仅为线性级别($O(L \cdot S)$,其中S为稀疏窗口大小),远低于全注意力机制。
最终形成的ZigZag结构,就是保留的高性能MLA模块与轻量级SSA模块的交错组合。这种设计在保证模型“智商”不掉线的前提下,极大地释放了算力负担。
1024 Token稀疏窗口:兼顾全局与局部
为了防止模型在稀疏化计算中丢失上下文逻辑,LoZA专门设计了一个大小为1024 Token的稀疏窗口。这个窗口内部结构精巧:
- 全局块(Global Block):负责捕捉整体的关联性,确保模型不会“只见树木,不见森林”。
- 局部块(Local Blocks):包含7个单块大小为128 Token的单元,专注于捕捉附近的细节内容。
这种设计确保了模型在处理长文本时,既能快速浏览概貌,又能精准定位细节,完美适配了长文档阅读和复杂逻辑推理的需求。
性能实测:速度与质量的双重飞跃
数据是检验技术的唯一标准。根据测试结果,搭载LoZA机制的LongCat-Flash-Exp模型表现令人瞩目:
- 解码速度暴增:在处理128K上下文时,解码速度比原版快了整整 10倍。
- 预加载提速:在256K上下文场景下,文本预加载(Reading)速度提升了50%,且后续生成阶段节省了30%的算力。这意味着在同等硬件条件下,现在的模型可以同时处理两倍以上的任务。
- 1M上下文解锁:得益于效率的提升,模型成功解锁了1M超长上下文窗口,能够轻松应对百万字级别的输入。
值得一提的是,在MRCR(长文本评测)中,LoZA加持下的模型表现甚至反超了同样支持1M长文本的Qwen-3模型,且稳定性更强。在日常问答和代码编写任务中,其表现也与全注意力版本的LongCat-Flash持平,真正做到了“更快、更强、更省”。
展望:动态稀疏与多模态的未来
美团龙猫团队的野心不止于此。未来,LoZA计划引入 动态稀疏比例 功能。这意味着模型将具备“自适应”能力:在处理短文本时,自动增加全注意力比例以保证极致精度;在面对长文本时,自动提升稀疏模块比例以优化效率。此外,该技术还有望适配多模态模型,为长视频理解和长图文分析提供强有力的底层技术支持。
随着大模型技术的不断演进,像LoZA这样的底层架构创新将是推动AI从“玩具”走向“工具”的关键。对于关注 AI资讯 和 大模型 发展的从业者来说,美团的这一步棋无疑为行业提供了新的优化思路。
想要了解更多关于 AI新闻、ChatGPT、Claude 以及 Prompt 技巧的最新动态,请务必访问专业的 AI门户 AIGC.bar。在这里,你可以获取一手的 AI日报,探索 AI变现 的无限可能。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)