SubQ颠覆Transformer！1200万上下文模型，成本仅Opus的5%

type

status

date

slug

summary

长上下文的“痛点”：为何Transformer难以承受之重？

你是否曾疑惑，为何AI能轻松理解一篇短文，却在面对庞大的代码库、详细的合同或海量的研究资料时频频出错？答案在于AI模型的核心——注意力机制。

在Transformer模型中，注意力机制的运作方式是让每个词（token）都与上下文中的所有其他词进行两两比较，以理解它们之间的关系。这种“稠密注意力”（Dense Attention）的设计，让模型能够捕捉到复杂的语义关联，从而在许多任务上表现出色。

然而，这种机制的代价是巨大的。当上下文长度（token数量）增加时，计算量会随着序列长度呈二次方增长。这意味着，如果上下文长度翻倍，计算成本将增加四倍。对于需要处理百万级token的真实世界应用，如分析整个代码库、审阅冗长的法律文件或整合海量的科研数据，这种计算成本几乎是天文数字，使得模型在实际应用中难以承受。

以往的解决方案，如将长文档切片、检索、压缩再喂给模型（如RAG），或者将复杂任务拆解给Agent，虽然能在一定程度上缓解问题，但往往会引入新的失效模式：信息丢失（位置、层级结构）、推理错误累积、对人工设计的过度依赖，以及在多次调用间上下文的反复压缩。这些方法是在模型“脚手架”之外进行弥补，而非从根本上解决问题。

SubQ的革命：SSA——亚二次稀疏注意力机制

SubQ模型提出的SSA（Subquadratic Sparse Attention）是一种截然不同的思路。它不试图优化Transformer的二次方复杂度，而是直接改造注意力机制本身，使其能够线性扩展，专为长上下文检索、推理和软件工程工作负载而设计。

SSA的核心理念在于内容相关性。它不再计算所有token两两之间的交互，而是通过一种内容相关的选择机制，将注意力“路由”到序列中真正重要的位置，无论这些位置有多远。这使得模型能够聚焦于最有价值的信息，而非浪费计算资源在无关的token对上。

SSA具备三个关键特性：

计算与内存的线性扩展：注意力成本不再与序列长度的平方成正比，而是与被选中的“重要”位置数量成正比。这意味着处理百万级token的成本可以变得经济可行。

基于内容的路由能力：模型能根据语义智能地决定“去哪里看”，而非依赖固定的位置模式。关键信息无论出现在序列的何处，都能被有效检索。

从任意位置进行稀疏检索：不同于循环或压缩方法，SSA保留了从序列中任意远距离位置恢复具体信息的能力，这是处理复杂长上下文问题的关键。

颠覆性表现：速度与成本的双重飞跃

SubQ模型及其SSA架构在多项基准测试中展现了惊人的性能：

100万token场景下的预填充加速：相比于稠密注意力模型，SubQ实现了52.2倍的预填充加速。

与前沿模型的比较：在MRCR v2（一个严苛的长上下文检索基准）上，SubQ得分65.9%，能够跟上前沿稠密注意力模型，并领先于GPT-5.4和Gemini 3.1 Pro。

成本效益：SubQ模型在100万token场景下的成本，不到Opus的5%。

吞吐反转：随着上下文长度增加，稠密注意力模型会变得越来越慢，而SSA的优势则会指数级放大，实现“吞吐反转”。在1M token规模下，SSA相比FlashAttention-2实现了高达52.2倍的加速。

SubQ的联合创始人Alexander Whedon指出，当前基于Transformer的大语言模型存在“计算上的天然浪费”。标准注意力机制会计算所有可能的关系，但真正有意义的只占很小一部分。SubQ通过聚焦于这些关键连接，有望将计算量降低近1000倍，为大模型的扩展提供了一条全新的、不依赖于单纯堆砌算力的新路径。

SSA的训练与部署可行性

仅仅拥有长上下文窗口是不足够的，模型还需要能够可靠地利用这些上下文。SubQ的研发团队为此设计了三阶段训练流程：

预训练：建立基础语言建模能力和长上下文表示。

监督微调：引导模型行为至指令遵循、结构化推理和代码生成等企业级工作负载所需模式。

强化学习：针对那些难以通过监督样本诱导的行为进行优化，特别是稳定的长上下文检索能力，以及在编码时主动利用可用上下文。

强化学习阶段尤其关键，它能训练模型克服“看起来合理但实则错误”的长上下文推理模式，比如倾向于使用邻近上下文而非关键但遥远的证据，或是生成与全局定义不符的代码。

从部署可行性来看，SSA的线性扩展特性意味着其计算成本和实际运行时间（wall-clock speed）随着上下文长度的增加而平稳增长，而非爆炸式增长。这使得构建能够交互式处理海量信息的大模型系统成为可能，而不再仅仅是离线批处理任务。

结论：AI长上下文的未来已来

SubQ模型及其SSA架构，通过根本性地重塑注意力机制，成功解决了困扰AI领域多年的长上下文效率和成本难题。它不仅在速度和成本上实现了跨越式进步，更重要的是，它提供了一种能够真正理解和利用海量信息的新范式。

这标志着AI能力的一次重大飞跃，预示着未来AI将在代码分析、法律合同审查、科学研究、企业知识管理等需要深度理解长篇文档的领域，展现出前所未有的强大能力。我们正见证一个AI新时代的到来，一个长上下文问题被有效解决，AI应用边界无限拓展的时代。

关注AI最新资讯，了解更多前沿技术突破，尽在aigc.bar。