阿里巴巴 Qwen-Image：免费开源，还要挑战 GPT-4.1 和 Midjourney？_Midjourney中文版_MJ绘画中文站

在文本生成和代码能力上，阿里巴巴的通义千问（Qwen）家族已经是榜单上的常客。这次，他们把目光投向了图像生成领域——推出了全新的 Qwen-Image 模型。

官方定位很直接：这是一个 原生支持文字渲染的图像生成模型，要正面挑战 GPT-4.1、DALL·E 2 和 Midjourney 的地位。最让人心动的是，它不仅免费，还完全开放，任何人都能用！

今天，我们就来全面拆解一下 Qwen-Image 的背景、性能、体验，以及如何快速上手。

01 Qwen-Image 是什么？

Qwen-Image 由阿里巴巴通义千问团队研发，是一个 200 亿参数的多模态扩散 Transformer 模型（20B MMDiT）。

它的特别之处在于：

简单来说，这是目前最强的开源图像生成模型之一，尤其擅长文字渲染。

Qwen-Image 的结构与 OpenAI 的 GPT-4o 有点相似，采用了 自回归 Transformer + 扩散模型 的组合：

这种架构在保留细节、文字渲染和编辑时的语义一致性方面有很大优势。

官方在多个基准测试中展示了它在文字渲染和图像编辑方面的高分表现。

你可以通过以下方式直接体验：

官网聊天界面：https://chat.qwen.ai/
1. 选择非代码模型（如 Qwen-235B-A3B-2507）
2. 在输入框下方点击 Image Generation
3. 输入提示词即可生成
其他途径：Github、Hugging Face、Modelscope

我用 Qwen-Image 做了三个任务测试——

① 生成含大量文字的网页设计

Prompt：设计一个洗发水的登陆页，包含标题、产品图片、卖点介绍、客户评价等。

结果：整体风格、配色都很契合，但文字下面有一股阴云一样，文字覆盖率还有提升空间。

② 生成信息图（Infographic）

Prompt：用 3 步流程图解释 20B MMDiT 模型的图像生成过程。

结果：结构有，但文字缺失严重，图标与说明的对应性较弱。

③ 图像编辑

输入图：夜景，有一名男子和一只猫

Prompt：改成阳光清晨，把男子换成橙色上衣+白色短裤，把猫换成小狗

结果：几乎完美！光照、人物衣着、动物替换都很准确，唯一的小问题是月亮变成了圆形云朵。

总体来看，Qwen-Image 是一份送给开源社区的“大礼”，在不花钱的前提下，它能逼近甚至部分超越一些付费顶级模型。如果后续版本持续优化，我们可能很快会看到它登上图像生成领域的榜首。

一句话总结：

想体验顶级图像生成，但又不想掏钱？Qwen-Image 值得你马上试一试。