在文本生成和代码能力上,阿里巴巴的通义千问(Qwen)家族已经是榜单上的常客。这次,他们把目光投向了图像生成领域——推出了全新的 Qwen-Image 模型。
官方定位很直接:这是一个 原生支持文字渲染的图像生成模型,要正面挑战 GPT-4.1、DALL·E 2 和 Midjourney 的地位。最让人心动的是,它不仅免费,还完全开放,任何人都能用!
今天,我们就来全面拆解一下 Qwen-Image 的背景、性能、体验,以及如何快速上手。
Qwen-Image 由阿里巴巴通义千问团队研发,是一个 200 亿参数的多模态扩散 Transformer 模型(20B MMDiT)。
它的特别之处在于:
开源权重(Open Weight),全球开发者都能自由调用
在 Artificial Analysis Image Arena 榜单上位列第 5,是前十名中唯一的开源模型
简单来说,这是目前最强的开源图像生成模型之一,尤其擅长文字渲染。
Qwen-Image 的结构与 OpenAI 的 GPT-4o 有点相似,采用了 自回归 Transformer + 扩散模型 的组合:
Qwen2.5-VL:负责解析提示词(Prompt)的语义
MMDiT 扩散模型:在“潜空间”中生成图像雏形
VAE 解码器:将潜空间的内容还原为高质量图片
这种架构在保留细节、文字渲染和编辑时的语义一致性方面有很大优势。
文字渲染强:不论是中英文段落、多行排版还是细粒度的文字细节,表现都很稳
编辑能力强:替换、修改、风格化处理时,原图的语义和视觉一致性保留得很好
门槛低:即便是简单的描述,也能生成不错的图
官方在多个基准测试中展示了它在文字渲染和图像编辑方面的高分表现。
你可以通过以下方式直接体验:
官网聊天界面:https://chat.qwen.ai/
选择非代码模型(如 Qwen-235B-A3B-2507)
在输入框下方点击 Image Generation
输入提示词即可生成
其他途径:Github、Hugging Face、Modelscope
我用 Qwen-Image 做了三个任务测试——
① 生成含大量文字的网页设计
Prompt:设计一个洗发水的登陆页,包含标题、产品图片、卖点介绍、客户评价等。
结果:整体风格、配色都很契合,但文字下面有一股阴云一样,文字覆盖率还有提升空间。
② 生成信息图(Infographic)
Prompt:用 3 步流程图解释 20B MMDiT 模型的图像生成过程。
结果:结构有,但文字缺失严重,图标与说明的对应性较弱。
③ 图像编辑
输入图:夜景,有一名男子和一只猫
Prompt:改成阳光清晨,把男子换成橙色上衣+白色短裤,把猫换成小狗
结果:几乎完美!光照、人物衣着、动物替换都很准确,唯一的小问题是月亮变成了圆形云朵。
图像生成 & 编辑:在多个基准测试中,Qwen-Image 与 GPT-4.1、Seedream 3.0 旗鼓相当,领先 FLUX.1
文字渲染:中文领先明显,英文表现也不俗,综合实力仅次于 GPT-4.1
优点:编辑能力一流、文字渲染强、免费开源、支持自定义画幅(适配不同社交媒体平台很方便)
不足:在信息密集型图像(如信息图)和大段文字生成上还有优化空间
总体来看,Qwen-Image 是一份送给开源社区的“大礼”,在不花钱的前提下,它能逼近甚至部分超越一些付费顶级模型。如果后续版本持续优化,我们可能很快会看到它登上图像生成领域的榜首。
一句话总结:
想体验顶级图像生成,但又不想掏钱?Qwen-Image 值得你马上试一试。