告别RoPE?Transformer作者推DroPE:零样本扩展长文本新范式 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能飞速发展的今天,大模型(LLM)处理长文本的能力一直是业界关注的焦点。无论是分析长篇财报、阅读整本小说,还是进行复杂的代码库推理,"长上下文"(Long Context)都是通往通用人工智能(AGI)的必经之路。然而,现有的解决方案往往伴随着高昂的计算成本和训练难度。
近日,Transformer架构的核心作者之一Llion Jones领导的Sakana AI团队,再次为AI领域投下了一枚重磅炸弹。他们开源了一项名为DroPE的新技术,挑战了目前主流的旋转位置编码(RoPE)统治地位。这项技术不仅能实现无缝的零样本上下文扩展,而且其重新校准模型所需的预训练预算竟然不到1%。这一突破性的进展,无疑将为AI资讯和LLM研发带来新的风向标。如果您关注最新的AI动态和前沿技术,欢迎访问 AINEWS 获取更多深度报道。

为什么现有的RoPE在大模型长文本中会失效?

要理解DroPE的创新之处,首先需要回顾一下目前大模型是如何理解"位置"的。在Transformer架构中,自注意力机制(Self-Attention)虽然强大,但它天生是个"路痴"——它能计算词与词之间的关联,却无法区分"猫抓老鼠"和"老鼠抓猫"的区别,因为并行计算丢失了序列的顺序信息。
为了解决这个问题,研究人员引入了位置嵌入(Positional Embedding)。目前最流行的方案是RoPE(旋转位置编码),它可以被视为大模型的一个"指南针",帮助模型建立语序感知。
然而,RoPE并非完美无缺。当面对超出训练长度的长文本时,RoPE暴露出了严重的缺陷: * 高频维度饱和:旋转角度变化太快,导致位置编码在长序列中失效。 * 低频维度迟钝:旋转角度变化过慢,无法准确表征位置信息。
这就好比指南针在短距离内很准,但一旦进行长途跨洋航行,由于磁场干扰和精度问题,它就开始乱指方向。这也是为什么许多大模型在处理超长文本时,性能会急剧下降的原因。

DroPE的核心理念:把位置编码当成"临时工"

Sakana AI团队提出的DroPE(被戏称为NoRoPE),其核心思想非常反直觉:既然位置编码在长文本推理时会捣乱,那为什么不在推理时把它扔掉呢?
DroPE将位置嵌入视为一种"临时的训练辅助工具",而不是模型推理的必要组件。其工作流程如下:
  1. 预训练阶段(保留RoPE):借助RoPE来保证训练的稳定性和效率,让模型在学习初期建立起基本的顺序感和语法结构。
  1. 推理阶段(丢弃RoPE):在大胆丢弃位置嵌入后,模型不再依赖显式的坐标,而是依靠训练中习得的内在注意力模式来理解上下文。
  1. 快速校准:在原上下文长度下进行极其简短的重新校准(Fine-tuning),让模型适应没有位置编码的"裸奔"状态。
这种方法成功解锁了模型的长上下文外推能力。实验证明,在不针对长文本进行昂贵额外训练的情况下,DroPE让模型能够处理远超其训练长度的序列。

性能飙升:1%预算换取10倍提升

DroPE并非仅仅停留在理论层面,Sakana AI团队在多个规格的模型上进行了验证,包括从零开始训练的5M参数模型、SmolLM家族(360M/1.7B)以及主流的Llama2-7B。
数据表现令人印象深刻: * LongBench基准测试:DroPE将基础SmolLM模型的平均得分提高了10倍以上。 * 大海捞针(NIAH)任务:这是评估长文本能力的金标准。DroPE模型的召回率高达74.92%,大幅超越了传统的RoPE缩放方法。 * 极低成本:即使是在Llama2-7B这样的大规模模型上,仅使用0.5%的预训练预算进行重新校准,就能在长上下文问答和总结任务中展现出卓越性能。
这意味着,开发者和企业无需花费数百万美元进行长窗口微调,利用DroPE技术,现有的开源大模型也能低成本地进化成"长文本专家"。

Sakana AI:从"AI科学家"到"数字红皇后"

提出DroPE的Sakana AI可谓是近期AI圈的明星公司。除了由Transformer八子之一的Llion Jones坐镇,前谷歌高级科学家David Ha也是联合创始人。这家被英伟达CEO黄仁勋看好的公司,不仅发布了DroPE,还推出过首个能自主写论文的"AI科学家"(The AI Scientist)。
就在DroPE发布前后,他们还联合MIT提出了数字红皇后(Digital Red Queen)算法。该研究利用大语言模型在编程游戏中实现对抗性进化,生成的代码表现出了惊人的通用性和多样性。这种"趋同进化"的现象,为网络安全、药物设计等需要博弈对抗的领域提供了全新的AI解决思路。

结语

DroPE的出现,打破了"长文本=高算力"的固有思维。它证明了有时候做减法(扔掉位置编码)比做加法更有效。对于致力于开发更强AGI和LLM应用的开发者来说,这无疑是一个振奋人心的消息。
随着AI技术的不断迭代,像DroPE这样高效、低成本的创新将成为推动大模型普及的关键力量。如果您想了解更多关于人工智能、ChatGPT、Claude以及最新AI资讯的深度分析,请持续关注 AINEWS,我们将为您带来第一手的行业洞察。
Loading...

没有找到文章