阿里巴巴开源Qwen-Image-Edit模型,革新文本驱动的图像编辑

编辑者: Veronika Radoslavskaya

阿里巴巴的Qwen团队于2025年8月18日面向全球发布了其最新的开源AI模型——Qwen-Image-Edit。该模型基于拥有200亿参数的Qwen-Image基础模型,能够通过文本指令执行复杂的图像编辑任务,其先进的文本渲染能力支持中英文在图像中的精确呈现与修改,并采用了创新的双编码器架构,实现了语义理解与视觉细节重建的平衡。

Qwen-Image-Edit通过结合Qwen2.5-VL视觉语言模型进行语义理解和变分自编码器(VAE)进行细节重构,提供了语义编辑和外观编辑两种模式。语义编辑可实现风格迁移、物体旋转(如180度视角合成)等宏观调整;外观编辑则专注于局部精细化修改,例如在图像中添加带有真实反射的招牌,或移除细微的毛发而不影响周围环境。该模型在多项公开基准测试中均取得了领先的编辑任务性能,在Gedit-Bench(英文和中文)上得分分别为7.56和7.52,优于GPT Image 1和FLUX.1 Kontext等模型。

阿里巴巴此举旨在通过提供强大的开源工具,构建一个完整的AI开发生态系统,吸引全球开发者在此基础上进行创新。此次发布标志着AI在创意工具领域的重要进展,降低了专业创意工具的使用门槛,并预示着未来创意工作流程将更加强调开放协作和快速迭代。在生成式AI日益重塑创意产业的背景下,Qwen-Image-Edit的出现为创意专业人士提供了更多选择和可能性,也促使整个行业在技术创新和用户体验上不断突破。

据统计,全球超过90%的创意专业人士使用Adobe Photoshop,这显示了传统软件的强大市场基础。然而,Qwen-Image-Edit在文本渲染这一AI领域长期存在的难点上展现出了显著优势,为图像编辑领域带来了新的变量和挑战。该模型不仅提升了创作者的效率和创造力,也体现了AI作为人类创造力延伸和伙伴的趋势,预示着一个更加开放、协作和智能化的创意新时代的到来。

来源

  • WinBuzzer

  • Qwen-Image-Edit · Hugging Face

  • Qwen-Image-Edit - Alibaba Cloud Model Studio

  • Qwen-Image Technical Report

你发现了错误或不准确的地方吗?

我们会尽快考虑您的意见。

阿里巴巴开源Qwen-Image-Edit模型,革新文本驱动的图像编辑 | Gaya One