纯卷积DiC颠覆AIGC!性能超DiT,速度快5倍 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址

引言:Transformer之外,AIGC的另一条路

在人工智能(AI)的浪潮中,AIGC(AI生成内容)领域无疑是最璀璨的明珠。从Stable Diffusion的惊艳图像到Sora的电影级视频,基于Transformer架构的扩散模型似乎已经成为不可动摇的霸主。它们强大的全局建模能力带来了前所未有的生成效果,但也伴随着巨大的计算资源消耗和缓慢的推理速度,这成为技术普及和应用的一大障碍。
然而,当整个行业都在Transformer的赛道上内卷时,来自北京大学、北京邮电大学和华为的一项联合研究,却为我们揭示了一条全新的道路。他们推出的纯卷积扩散模型DiC (Diffusion CNN),大胆回归深度学习最经典的3x3卷积,不仅在生成质量上超越了主流的Diffusion Transformer (DiT),更在速度上实现了近5倍的碾压。这项工作向我们证明,人工智能的发展并非只有一条路,经典技术在创新设计下依然能爆发出惊人能量。更多前沿AI资讯,欢迎访问AI门户网站 https://aigc.bar。

返璞归真:为何重拾3x3卷积?

在当下的大模型时代,谈及视觉生成,我们首先想到的几乎都是Transformer中的自注意力(Self-Attention)机制。它拥有天然的全局感受野,被认为是实现卓越生成效果和遵循Scaling Law的关键。相比之下,3x3卷积因其固有的局部感受野,长期以来被认为在需要全局信息的生成任务中存在天然劣势。
那么,DiC的研究者们为何要“逆流而上”呢?答案藏在“效率”二字中。
  • 极致的硬件亲和性:3x3卷积是现代AI芯片(如GPU)和深度学习框架(如cuDNN)优化得最彻底的算子。借助Winograd等高效计算方法,其运算速度远超其他复杂操作,是实现高吞吐量、低延迟推理的利器。
  • 挑战固有认知:DiC的作者们认为,“生成模型必须依赖自注意力”可能是一种路径依赖下的思维定势。他们希望通过精巧的架构设计,证明纯卷积网络同样可以有效捕捉全局信息,构建强大的生成大模型
DiC的出现,正是对这一传统观念发起的有力挑战,旨在为AIGC领域寻找一个性能与效率兼得的最优解。

DiC的进化:从平凡到卓越的架构魔法

简单地堆叠卷积层并不能创造奇迹。DiC的成功源于一系列精心策划的、环环相扣的架构创新,将一个看似平凡的卷积网络,一步步打造成了性能怪兽。
1. 架构基石:U-Net沙漏形态 研究发现,对于纯卷积网络,经典的U-Net沙漏型架构远比Transformer中流行的直筒型堆叠架构更有效。通过编码器中的下采样和解码器中的上采样,模型能够在更高层级的特征图上,用同样的3x3卷积核覆盖更广阔的原始图像区域。这巧妙地弥补了单个卷积核感受野不足的缺陷,实现了分层级的全局信息聚合。同时,DiC还优化了U-Net中的跳跃连接,减少了不必要的计算冗余。
2. 灵魂注入:全方位条件控制 为了让模型能精准地根据提示词(Prompt)或类别等条件进行生成,DiC设计了一套精密的“三连击”注入策略: * 分阶段嵌入 (Stage-Specific Embeddings):为U-Net不同层级的特征图提供维度匹配的、专属的条件信息,确保信息在对应尺度上发挥最大作用。 * 最佳注入位置:通过大量实验,确定将条件信息在卷积块的中间层注入,可以最高效地调制特征,避免信息稀释或干扰。 * 条件门控 (Conditional Gating):引入一个动态门控机制,通过缩放特征图来精细化地控制条件信息对生成过程的影响力,极大提升了生成的可控性和质量。
3. 细节打磨:激活函数优化 在模型优化的最后一步,研究者将常用的SiLU激活函数替换为GELU。这一看似微小的改动,也为模型最终的性能提升做出了贡献,体现了其在细节上追求极致的工程精神。

惊人成果:性能与速度的双重胜利

DiC的实验结果极具说服力,它在性能和速度两个维度上都取得了对DiT的压倒性优势。
  • 性能超越:在同等的计算量(FLOPs)和参数规模下,DiC在所有尺寸上都显著优于DiT。例如,DiC-XL模型的FID分数(越低越好)达到了13,远低于DiT-XL/2的20。这意味着DiC生成的图像在保真度和多样性上都更胜一筹。当开启无分类器指导(CFG)时,其FID分数甚至可以达到惊人的2.25。
  • 速度颠覆:这是DiC最令人震撼的优势。得益于纯卷积架构对硬件的极致友好,DiC的推理吞吐量远超同级Transformer模型。在相同的硬件条件下,DiC-XL的吞吐量是DiT-XL/2的近5倍!这种速度优势在AI变现和大规模部署场景中具有决定性意义。
  • 卓越的可扩展性:当处理512x512等更高分辨率的图像时,Transformer的二次方计算复杂度问题会急剧恶化,而DiC的线性复杂度使其优势更加突出。实验证明,DiC能以更少的计算量、更快的速度,在大尺寸图像生成上达到比DiT更好的效果。

结论:卷积的复兴,AIGC未来的新可能

DiC的诞生,是人工智能领域一次重要的思想回归与创新。它有力地证明了,在通往AGI的道路上,我们不应将目光局限于单一的Transformer架构。通过对经典卷积网络的深刻理解和巧妙的现代化改造,我们同样可以构建出性能卓越、效率惊人的生成大模型
这不仅为研究者们开辟了新的探索方向,也为AIGC应用的商业化落地提供了更具性价比的方案。卷积神经网络,这个在深度学习黎明期就大放异彩的经典结构,正在以全新的姿态宣告其在生成时代的华丽复兴。
想获取更多前沿的AI新闻AI资讯,探索AIGC的无限可能,欢迎访问AI门户网站 https://aigc.bar,与我们一同见证人工智能的未来。
Loading...

没有找到文章