ViT一作盛赞!通义千问开源Qwen-Image-Layered:让AI绘图进入PS图层时代 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:AI生图的“最后一公里”终于被打通了

在AI绘画领域,我们曾长期受困于“一图定生死”的窘境。无论是Midjourney还是DALL-E,生成的图片即便只有一处微小的瑕疵,用户往往也只能推倒重来,难以进行局部精细化调整。然而,这一僵局最近被阿里通义千问团队发布的开源模型 Qwen-Image-Layered 彻底打破。
这款被誉为开源界“PS模型”的新作,不仅让ViT(Vision Transformer)核心作者、Meta超级智能团队成员Lucas Beyer连发三推盛赞,更是在社交媒体上引发了轰动。Lucas Beyer直言,这才是图像生成的“正确打开方式”。对于关注 AI资讯AI新闻 的开发者来说,Qwen-Image-Layered的出现,标志着AI图像处理正式从“像素生成”跨越到了“图层编辑”的新阶段。
想要了解更多前沿 AI 技术动态和 大模型 深度解析,欢迎访问 AI门户

核心能力:从“一整张图”到“RGBA图层自由”

Qwen-Image-Layered最令人惊艳的能力在于其强大的“拆图”本领。不同于以往只能生成扁平RGB图像的模型,它能够将一张普通的图片分解为多个包含透明度信息的 RGBA分离图层
这意味着,AI生成的不再是一张“死图”,而是一个类似Photoshop工程文件的多图层集合。模型可以根据画面内容的复杂度,自动将背景、主体人物、装饰物、文字等元素拆分到不同的层级中。这种精细化的拆解,为后续的二次编辑提供了无限可能。

实战应用:像用PS一样修改AI生成的图片

有了Qwen-Image-Layered,用户可以实现真正意义上的“精准手术式”修改。以下是该模型在实际应用中的几个核心场景:
  1. 背景替换而不伤主体:你可以只修改背景图层的颜色或内容,而保持主体人物完全不动。
  1. 局部元素替换:在保持构图不变的前提下,将长发女孩换成短发,或者更换画面中的特定装饰。
  1. 文字幻觉的终结者:AI生图最怕文字出错。现在,你可以单独提取文字图层进行修改,哪怕原始生成有误,也能轻松修正。
  1. 自由缩放与删除:支持在不拉伸、不失真的情况下调整元素大小,或者直接删除画面中多余的物体。
这种“无限分解”的能力,让模型甚至可以将人物一路拆解到线稿层,极大地提升了生产力。

技术解密:端到端扩散模型与RGBA-VAE的魔法

为什么Qwen-Image-Layered能做到Nano Banana做不到的事情?其核心在于一套创新的端到端扩散模型架构。
  • RGBA-VAE设计:传统的图片只有RGB三通道,而图层编辑需要Alpha(透明度)通道。通义千问团队专门设计了四通道的RGBA-VAE,将RGB输入和RGBA输出统一压缩在隐藏空间中,使模型从底层逻辑上“读懂”透明度。
  • Transformer-VLD-MMDiT:该结构能根据图片复杂度动态决定拆层数量,不再受固定层数的限制。
  • Layer3D RoPE(三维位置编码):通过给不同图层打上明确的层级标签,模型能够清晰分辨空间顺序,有效避免了图层重叠时的遮挡错误。
相比于传统的“分割+修复”方案,这种端到端的方法能够更好地处理复杂遮挡和半透明区域,确保语义分离得干干净净。

结论:开源力量推动AGI视觉创作新范式

Qwen-Image-Layered的开源,不仅是技术上的突破,更是对AI创作流程的一次重塑。它证明了中国开源模型在视觉理解与生成领域的深厚积淀。正如Lucas Beyer所言,这种具备图层意识的模型方向,正是未来 AGI 发展的关键路径之一。
对于广大设计师、开发者和AI爱好者来说,Qwen-Image-Layered无疑是一个强大的生产力工具。它降低了专业图像编辑的门槛,让“人人都是修图大师”成为可能。
如果你想持续获取关于 openai, chatGPT, claude 以及更多 人工智能 领域的深度干货和 AI日报,请锁定 AIGC.bar,获取最新的 提示词 技巧与 AI变现 指南。
Loading...

没有找到文章