SubQ颠覆Transformer!1200万上下文模型,成本仅Opus的5%
type
status
date
slug
summary
tags
category
icon
password
网址
人工智能的边界正在被不断拓展,尤其是大型语言模型(LLM)在处理信息的能力上取得了飞跃。然而,一个长期存在的挑战——“长上下文”问题,始终是制约其潜力的瓶颈。传统的Transformer架构,虽然因其强大的注意力机制而风靡一时,但在面对海量数据时,计算成本呈指数级增长,使得处理长文本、代码库或复杂知识库变得异常昂贵且低效。
近日,Subquadratic公司发布了一项革命性的研究成果——SubQ模型,以及其核心技术SSA(Subquadratic Sparse Attention,亚二次稀疏注意力机制)。这不仅是AI领域的一项重大突破,更是为解决长上下文问题提供了一条全新的、极具成本效益的路径。本文将深入解读SubQ的创新之处,探讨它如何超越Transformer的局限,以及这对AI的未来意味着什么。
长上下文的“痛点”:为何Transformer难以承受之重?
你是否曾疑惑,为何AI能轻松理解一篇短文,却在面对庞大的代码库、详细的合同或海量的研究资料时频频出错?答案在于AI模型的核心——注意力机制。
在Transformer模型中,注意力机制的运作方式是让每个词(token)都与上下文中的所有其他词进行两两比较,以理解它们之间的关系。这种“稠密注意力”(Dense Attention)的设计,让模型能够捕捉到复杂的语义关联,从而在许多任务上表现出色。
然而,这种机制的代价是巨大的。当上下文长度(token数量)增加时,计算量会随着序列长度呈二次方增长。这意味着,如果上下文长度翻倍,计算成本将增加四倍。对于需要处理百万级token的真实世界应用,如分析整个代码库、审阅冗长的法律文件或整合海量的科研数据,这种计算成本几乎是天文数字,使得模型在实际应用中难以承受。
以往的解决方案,如将长文档切片、检索、压缩再喂给模型(如RAG),或者将复杂任务拆解给Agent,虽然能在一定程度上缓解问题,但往往会引入新的失效模式:信息丢失(位置、层级结构)、推理错误累积、对人工设计的过度依赖,以及在多次调用间上下文的反复压缩。这些方法是在模型“脚手架”之外进行弥补,而非从根本上解决问题。
SubQ的革命:SSA——亚二次稀疏注意力机制
SubQ模型提出的SSA(Subquadratic Sparse Attention)是一种截然不同的思路。它不试图优化Transformer的二次方复杂度,而是直接改造注意力机制本身,使其能够线性扩展,专为长上下文检索、推理和软件工程工作负载而设计。
SSA的核心理念在于内容相关性。它不再计算所有token两两之间的交互,而是通过一种内容相关的选择机制,将注意力“路由”到序列中真正重要的位置,无论这些位置有多远。这使得模型能够聚焦于最有价值的信息,而非浪费计算资源在无关的token对上。
SSA具备三个关键特性:
- 计算与内存的线性扩展:注意力成本不再与序列长度的平方成正比,而是与被选中的“重要”位置数量成正比。这意味着处理百万级token的成本可以变得经济可行。
- 基于内容的路由能力:模型能根据语义智能地决定“去哪里看”,而非依赖固定的位置模式。关键信息无论出现在序列的何处,都能被有效检索。
- 从任意位置进行稀疏检索:不同于循环或压缩方法,SSA保留了从序列中任意远距离位置恢复具体信息的能力,这是处理复杂长上下文问题的关键。
颠覆性表现:速度与成本的双重飞跃
SubQ模型及其SSA架构在多项基准测试中展现了惊人的性能:
- 100万token场景下的预填充加速:相比于稠密注意力模型,SubQ实现了52.2倍的预填充加速。
- 与前沿模型的比较:在MRCR v2(一个严苛的长上下文检索基准)上,SubQ得分65.9%,能够跟上前沿稠密注意力模型,并领先于GPT-5.4和Gemini 3.1 Pro。
- 成本效益:SubQ模型在100万token场景下的成本,不到Opus的5%。
- 吞吐反转:随着上下文长度增加,稠密注意力模型会变得越来越慢,而SSA的优势则会指数级放大,实现“吞吐反转”。在1M token规模下,SSA相比FlashAttention-2实现了高达52.2倍的加速。
SubQ的联合创始人Alexander Whedon指出,当前基于Transformer的大语言模型存在“计算上的天然浪费”。标准注意力机制会计算所有可能的关系,但真正有意义的只占很小一部分。SubQ通过聚焦于这些关键连接,有望将计算量降低近1000倍,为大模型的扩展提供了一条全新的、不依赖于单纯堆砌算力的新路径。
SSA的训练与部署可行性
仅仅拥有长上下文窗口是不足够的,模型还需要能够可靠地利用这些上下文。SubQ的研发团队为此设计了三阶段训练流程:
- 预训练:建立基础语言建模能力和长上下文表示。
- 监督微调:引导模型行为至指令遵循、结构化推理和代码生成等企业级工作负载所需模式。
- 强化学习:针对那些难以通过监督样本诱导的行为进行优化,特别是稳定的长上下文检索能力,以及在编码时主动利用可用上下文。
强化学习阶段尤其关键,它能训练模型克服“看起来合理但实则错误”的长上下文推理模式,比如倾向于使用邻近上下文而非关键但遥远的证据,或是生成与全局定义不符的代码。
从部署可行性来看,SSA的线性扩展特性意味着其计算成本和实际运行时间(wall-clock speed)随着上下文长度的增加而平稳增长,而非爆炸式增长。这使得构建能够交互式处理海量信息的大模型系统成为可能,而不再仅仅是离线批处理任务。
结论:AI长上下文的未来已来
SubQ模型及其SSA架构,通过根本性地重塑注意力机制,成功解决了困扰AI领域多年的长上下文效率和成本难题。它不仅在速度和成本上实现了跨越式进步,更重要的是,它提供了一种能够真正理解和利用海量信息的新范式。
这标志着AI能力的一次重大飞跃,预示着未来AI将在代码分析、法律合同审查、科学研究、企业知识管理等需要深度理解长篇文档的领域,展现出前所未有的强大能力。我们正见证一个AI新时代的到来,一个长上下文问题被有效解决,AI应用边界无限拓展的时代。
关注AI最新资讯,了解更多前沿技术突破,尽在aigc.bar。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)