阿里巴巴开源Qwen-Image-Edit模型，革新文本驱动的图像编辑

12:36, 20 八月

编辑者： Veronika Radoslavskaya

阿里巴巴的Qwen团队于2025年8月18日面向全球发布了其最新的开源AI模型——Qwen-Image-Edit。该模型基于拥有200亿参数的Qwen-Image基础模型，能够通过文本指令执行复杂的图像编辑任务，其先进的文本渲染能力支持中英文在图像中的精确呈现与修改，并采用了创新的双编码器架构，实现了语义理解与视觉细节重建的平衡。

Qwen-Image-Edit通过结合Qwen2.5-VL视觉语言模型进行语义理解和变分自编码器（VAE）进行细节重构，提供了语义编辑和外观编辑两种模式。语义编辑可实现风格迁移、物体旋转（如180度视角合成）等宏观调整；外观编辑则专注于局部精细化修改，例如在图像中添加带有真实反射的招牌，或移除细微的毛发而不影响周围环境。该模型在多项公开基准测试中均取得了领先的编辑任务性能，在Gedit-Bench（英文和中文）上得分分别为7.56和7.52，优于GPT Image 1和FLUX.1 Kontext等模型。

阿里巴巴此举旨在通过提供强大的开源工具，构建一个完整的AI开发生态系统，吸引全球开发者在此基础上进行创新。此次发布标志着AI在创意工具领域的重要进展，降低了专业创意工具的使用门槛，并预示着未来创意工作流程将更加强调开放协作和快速迭代。在生成式AI日益重塑创意产业的背景下，Qwen-Image-Edit的出现为创意专业人士提供了更多选择和可能性，也促使整个行业在技术创新和用户体验上不断突破。

据统计，全球超过90%的创意专业人士使用Adobe Photoshop，这显示了传统软件的强大市场基础。然而，Qwen-Image-Edit在文本渲染这一AI领域长期存在的难点上展现出了显著优势，为图像编辑领域带来了新的变量和挑战。该模型不仅提升了创作者的效率和创造力，也体现了AI作为人类创造力延伸和伙伴的趋势，预示着一个更加开放、协作和智能化的创意新时代的到来。

来源

WinBuzzer
Qwen-Image-Edit · Hugging Face
Qwen-Image-Edit - Alibaba Cloud Model Studio
Qwen-Image Technical Report

通知中心

通知中心

阿里巴巴开源Qwen-Image-Edit模型，革新文本驱动的图像编辑

来源

阅读更多关于该主题的新闻：