VLM剪枝新SOTA:无需重训练,注意力去偏置技术解析 - AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在此 AI资讯 爆炸的时代,视觉—语言模型(Vision-Language Models, VLMs)正迅速成为通往 AGI(通用人工智能)的重要基石。从 GPT-4V 到 LLaVA,这些 大模型 在图像理解、多模态对话中展现了惊人的能力。然而,随着模型参数量的激增,如何在保持性能的同时降低推理成本,成为了 人工智能 领域亟待解决的难题。
通常,研究人员会使用视觉 Token 剪枝(Visual Token Pruning)来减少计算量,而“注意力机制(Attention)”往往被视为判断信息重要性的黄金标准。但是,上海大学曾丹团队联合南开大学的最新研究通过 AI新闻 视野揭示了一个惊人的事实:我们深信不疑的 Attention 可能存在严重的偏置。本文将深入解读这项无需重训练即可超越 6 大主流方案的 VLM 剪枝新 SOTA 技术。

揭秘 VLM 中的注意力陷阱

在多模态 LLM 的研究中,直觉告诉我们,Attention 机制反映了模型“关注”的地方,因此 Attention 分数高的区域自然被认为包含了更重要的语义信息。然而,最新的研究表明,这种假设在 VLM 中并不总是成立。
研究团队发现,Attention 并不完全由图像内容决定,而是深受“结构性偏置”的影响。这意味着,模型可能会给予某些区域极高的关注度,并非因为那里有关键物体,仅仅是因为这些 Token 处于特定的位置或属于填充区域。如果直接利用这种带有偏见的 Attention 进行剪枝,势必会误删关键信息,保留无用的噪音,从而阻碍 大模型 的性能表现。

深入剖析两类关键偏置

为了更好地理解这一问题,我们需要关注研究中指出的两类典型偏置,这对于理解 人工智能 模型的内部运作机制至关重要:
1. 位置偏置(Recency Bias): 研究发现,在 Language-to-Vision 的注意力计算中,模型倾向于关注序列末尾的视觉 Token。在图像被展平为序列后,这通常对应于图像的下方区域。换句话说,模型可能会“盲目”地认为图片下方的像素比上方的更重要,即便关键物体位于图片上方。这种与语义无关的倾向性,严重扭曲了剪枝算法的判断。
2. Padding 引发的 Attention Sink 现象: 在处理不同尺寸的图像时,为了统一输入格式,通常需要进行 Padding(填充)。这些填充区域在语义上是完全“空白”的。然而,由于 Hidden State 中的异常激活,这些本该被忽略的 Padding Token 居然能获得极高的 Attention 分数。这导致了所谓的“注意力汇聚(Attention Sink)”现象——无意义的填充区域“吸走”了大量的注意力,导致在剪枝时被错误地保留下来。

无需重训练的创新解决方案

针对上述痛点,上海大学团队提出了一种极为优雅的解决方案:Attention Debiasing(注意力去偏)。与以往需要耗费大量算力进行微调或重训练的方法不同,这是一种即插即用(Plug-and-Play)的策略,极具 AI变现 和实际部署价值。
该方法的核心逻辑在于“修正”而非“重建”。团队通过拟合 Attention 随 Token 位置变化的趋势,构建了一条反映位置偏置的曲线。利用这条曲线,可以对原始的 Attention Map 进行逆向修正,显式地削弱位置因素的影响。同时,在剪枝阶段强制抑制 Padding Token 的权重。
这一过程不需要修改模型架构,也不需要重新训练参数,可以轻松集成到现有的 FastV、SparseVLM 等主流剪枝框架中。这对于那些依赖 API 调用或边缘计算资源的开发者来说,无疑是一个巨大的福音。

超越主流:实验结果与应用前景

AI日报 关注的众多技术突破中,该方法的实验数据尤为亮眼。研究团队将去偏方法集成到了 6 种主流的基于 Attention 的剪枝方法中,并在 10 个图像理解基准和 3 个视频理解基准上进行了测试。
结果显示,在几乎所有的测试设置下,经过去偏修正后的模型都取得了性能提升。特别是在剪枝比例较高(即保留的 Token 很少)的情况下,去偏带来的稳定性提升更为显著。可视化分析进一步证明,修正后的模型能够更精准地聚焦于图像中的核心物体,而非背景或填充区域。
这一成果对于 人工智能 的落地应用具有深远意义。它意味着我们可以在移动端、边缘设备等计算资源受限的场景下,部署更高效、更可靠的多模态模型。无论是实时的视频分析,还是低延迟的视觉问答,这项技术都提供了新的优化思路。

总结

上海大学曾丹团队的这项研究,不仅打破了“Attention 即重要性”的固有认知,更提供了一套切实可行的低成本优化方案。通过简单的数学修正,无需昂贵的重训练成本,即可显著提升 VLM 的剪枝效果。
随着 大模型 技术的不断演进,如何让模型更轻量、更高效将是未来的核心议题。对于关注 AI资讯Prompt 工程的开发者而言,理解并利用这些底层机制的优化,将有助于构建更强大的 AI 应用。如果您想了解更多关于 chatGPTclaude 以及前沿 AGI 技术的发展,欢迎访问 https://aigc.bar 获取更多深度 AI新闻 和干货内容。
Loading...

没有找到文章