何恺明团队新作pMF:开启像素级「无潜、单步」生成新范式
type
status
date
slug
summary
tags
category
icon
password
网址
引言:回归“大道至简”的生成哲学
在生成式AI(AIGC)领域,何恺明(Kaiming He)的名字往往与视觉领域的重大突破联系在一起。从ResNet到MAE,他的研究始终遵循着一种“大道至简”的哲学。近日,何恺明团队再次发布重磅论文,推出了一种名为 pixel MeanFlow (pMF) 的全新框架。这一研究直接挑战了当前以 DiT(Diffusion Transformer)为代表的主流扩散模型,提出了一种单步(One-step)且无潜空间(Latent-free)的像素级生成范式。
长期以来,为了获取高质量的图像,AI模型不得不依赖复杂的VAE(变分自编码器)来降低计算维度,并通过成百上千次的迭代采样来逼近真实分布。而pMF的出现,标志着我们正在向“所见即所得”的端到端神经网络生成迈出坚实的一步。如果你想持续关注这类前沿AI动态,欢迎访问 AI门户网站 aigc.bar 获取更多深度资讯。
告别VAE与多步迭代:pMF的极简设计
当前的主流扩散模型与流匹配(Flow Matching)模型主要依赖两大支柱:
1. 多步采样:通过ODE或SDE求解器,将复杂的噪声转换分解为微小的步进。
2. 潜空间(Latent Space)运行:在预训练的VAE潜空间中运行以降低计算开销。
尽管这种设计在图像质量上取得了成功,但从深度学习“端到端”的理想状态来看,这种系统增加了推理开销和复杂性。
何恺明团队提出的 pMF 框架 彻底打破了这种依赖。它继承了改进均值流(improved MeanFlow, iMF)的思路,通过在瞬时速度(v)空间内定义损失函数,直接在像素空间进行建模。这意味着模型不再需要预设的编码器,也不再需要复杂的采样链条,而是直接将噪声映射为最终的像素图像。
核心技术:从速度场 u 到去噪图像场 x 的跨越
pMF 成功的关键在于对预测目标的重参数化。团队发现,如果直接在像素空间预测速度场(u-prediction),模型性能在面对高维数据时会迅速崩溃。
受 JiT(Just image Transformers)的启发,pMF 引入了一种转换机制,将速度场 u 与去噪图像场 x 联系起来。
* u 场:包含了噪声和数据成分,在视觉上类似于噪点图像,在高维空间中分布极其复杂。
* x 场:具有去噪图像的外观,更符合“低维流形假设”。
通过让网络直接预测 x(即 x-prediction),并将其通过数学转换回归到 v 空间,模型能够更轻松地捕捉到图像的底层结构。实验证明,这种设计使得神经网络在处理高分辨率(如 1024x1024)图像时,依然能保持极强的学习能力。
“所见即所得”:感知损失的天然优势
pMF 的另一个显著优势是其“像素级”的特性。由于模型直接输出像素,传统的感知损失(Perceptual Loss)可以自然地集成到训练过程中。
在传统的基于潜空间的方法中,感知损失通常只在 Tokenizer(如 VAE)的预训练阶段使用。而 pMF 允许模型在生成训练阶段直接利用感知损失来优化细节。这种“所见即所得”的特性,不仅提升了生成图像的视觉锐度,也让模型的优化目标与人类视觉感知更加一致。
实验结果:单步生成的性能巅峰
在 ImageNet 数据集的严苛测试下,pMF 展现出了令人惊叹的性能:
* 256x256 分辨率:FID 达到 2.22。
* 512x512 分辨率:FID 达到 2.48。
值得注意的是,pMF 在实现这些成绩时,其计算成本(参数量和 Gflops)在不同分辨率下几乎维持不变。相比于之前单步生成领域的佼佼者 EPG(FID 8.82),pMF 实现了质的飞跃。这证明了单步、无潜空间的生成建模不仅可行,而且在效率和质量上都极具竞争力。
总结与展望:通往端到端生成的未来
何恺明团队的这项工作,实际上是对生成式模型的一次“寻根问底”。pMF 证明了我们不需要复杂的潜空间映射,也不需要冗长的推理步骤,一个单一、纯粹的端到端神经网络就能完成高质量的图像生成任务。
这种范式的转变,预示着未来 AI 图像生成将变得更加高效和轻量化,也为实时视频生成、移动端部署提供了新的技术路径。人工智能的每一次进化都在向简洁靠拢,pMF 无疑是这一趋势下的里程碑。
了解更多关于大模型、LLM 及人工智能的最新进展,请访问 AI日报门户 aigc.bar,获取一手 AI 资讯与 Prompt 提示词技巧。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)