Mamba作者颠覆AI:Tokens是枷锁,Transformer的致命缺陷已现 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能领域,Transformer架构的统治地位似乎坚不可摧。然而,Mamba模型作者、CMU助理教授Albert Gu最近抛出的一句颠覆性观点——「Tokens are bullshit」(分词是胡扯),如同一声惊雷,揭示了当前大模型技术路线下被长期忽视的深层缺陷。
这一观点不仅挑战了我们对语言模型工作方式的普遍认知,更预示着一场可能重塑 LLM 格局的架构革命。这不仅仅是关于计算效率的讨论,而是触及了模型能力的本质。要跟上这场技术浪潮,掌握前沿的 AI资讯 至关重要,您可以访问AI门户网站
https://aigc.bar
获取最新动态。Transformer的“阿喀琉斯之踵”:为何离不开分词?
长期以来,我们习惯于将分词(Tokenization)视为 大模型 处理流程中一个理所当然的步骤。其主要作用是将原始文本切分成模型能够理解的、更短的“词元”(token)序列,从而大幅降低注意力机制的二次方计算复杂度。
然而,Albert Gu尖锐地指出,这并非一个优雅的解决方案,而是一个为弥补Transformer自身缺陷而设计的“补丁”。分词带来了诸多问题:
* 语义割裂:模型难以处理跨越token边界的字符级任务,例如经典的“strawberry里有几个r?”问题,LLM经常出错正是因为“strawberry”被分割成了多个token。
* 多语言难题:对于非拉丁语系的语言或结构复杂的序列数据,设计一个通用且高效的tokenizer极为困难。
* 违背深度学习哲学:人工智能的核心理念是用端到端的学习取代手工特征工程。《苦涩的教训》告诉我们,更强的模型应该能从最原始的数据中直接学习。而分词,本质上就是一种手工设计的特征预处理。
Transformer的自注意力机制,其归纳偏置使其倾向于处理具有明确语义边界的、预先压缩好的信息单元。它天生就“喜欢”token,一旦面对原始、连续、低语义密度的字节流,其建模能力便会暴露短板。
新范式登场:状态空间模型(SSM)的核心优势
与Transformer针锋相对的,正是以Mamba为代表的状态空间模型(SSM)。要理解两者的根本差异,一个绝佳的类比是:
- Transformer如同一座数据库:它将上下文中的每一个token都精确地缓存起来,需要时可以进行完美的查询和检索。这赋予了它强大的细粒度操作能力,但代价是巨大的计算和内存开销,且上下文长度存在硬性限制。
- SSM如同一颗大脑:它将整个历史信息持续不断地压缩进一个固定大小的“状态”中。它无法像数据库那样完美回忆每一个细节,记忆是模糊但无限的。这种压缩机制迫使模型学习更高级别的抽象和模式,这或许更接近 人工智能 的本质。
现代SSM(如Mamba)的成功,源于三大核心要素的系统性整合:
1. 扩展的状态空间:拥有比输入输出维度大得多的隐藏状态,以容纳丰富的上下文信息。
2. 选择性状态更新:通过类似RNN门控的动态机制,选择性地记忆或遗忘信息,以适应信息流的变化。
3. 高效的并行训练:利用并行扫描等算法,解决了传统RNN难以在GPU上高效训练的瓶颈。
SSM并非简单地追求效率,它提供了一种与Transformer截然不同的处理信息的哲学。
无分词对决:当模型直面原始数据
真正的考验发生在取消分词,让模型直接处理原始字节流时。Mamba论文中的实验结果令人震惊:
在字节级或DNA序列等未经分词的数据上,SSM的性能远超Transformer,即使在给予Transformer更多计算资源(FLOPs)的情况下,SSM依然保持领先。
这一发现是决定性的。它证明了Transformer的弱点不仅仅在于效率,更在于其核心的建模能力。分词机制掩盖了它在处理原生、连续数据时的根本缺陷。SSM则展现了在低语义密度数据上更强的原生建模优势,这可能为我们通往 AGI 的道路开辟了新的方向。
融合与未来:混合架构与下一代大模型
这场辩论的结论并非要完全否定注意力机制。事实上,最新的研究趋势指向了融合。包括Jamba、Zamba在内的多个前沿模型,都采用了将SSM层与Attention层交替堆叠的混合架构。
实验表明,这种“大脑”(SSM)与“数据库”(Attention)协同工作的模式,能够取长补短,实现“1+1>2”的效果。模型可以利用SSM高效处理长序列、进行信息压缩和抽象,同时在需要精确检索时调用Attention层。这种混合模式或许是构建下一代更强大、更高效、更能适应真实世界嘈杂数据的 大模型 的关键。
结论
Albert Gu的“Tokens are bullshit”不仅是一个口号,更是对当前 AI 技术范式的一次深刻反思。它揭示了Transformer架构在光环之下隐藏的归纳偏置和建模局限。
分词可能只是 人工智能 发展长河中的一个临时拐杖。未来,能够直接从原始、多模态数据流中高效学习的架构,如SSM及其混合变体,将拥有更广阔的前景。这场关于模型基础架构的革命已经开始,它将决定未来AI的能力边界。想要持续追踪这场变革的最新进展和深度解读,欢迎访问AI新闻与资讯门户
https://aigc.bar
,与我们共同见证 AI 的未来。Loading...