Google 于 2025 年 10 月 2 日正式发布了 Gemini 2.5 Flash Image,这是一款先进的人工智能模型,专注于图像生成和编辑。该模型现已全面面向开发者和企业开放,可通过 Gemini API、Google AI Studio 和 Vertex AI 进行访问。
Gemini 2.5 Flash Image 的核心亮点包括支持 10 种不同的纵横比,以适应从电影宽屏到垂直社交媒体等多种平台的需求。此外,该模型在字符一致性方面取得了显著进步,能够跨越主要编辑保持形象的连贯性,有效解决了以往 AI 图像模型在处理复杂编辑时遇到的挑战。这对于需要保持角色或物体在不同场景下外观一致性的叙事性创作尤为重要,例如漫画、故事板或品牌资产的制作。
该模型原生支持多模态能力,能够同时处理文本和图像信息,从而实现更精确、更一致的编辑效果。Gemini 2.5 Flash Image 能够理解并执行基于自然语言的精细化编辑指令,例如调整背景、移除或替换对象,甚至改变衣物颜色。早期采用者,如 AI 初创公司 Cartwheel,对其处理复杂姿态的能力给予了高度评价。Cartwheel 的联合创始人 Andrew Carr 指出,该模型在保持姿态的忠实度和融入“世界知识”方面表现出色,这是其他模型难以企及的。
在定价方面,Gemini 2.5 Flash Image 的价格为每张图像 0.039 美元,每百万输出令牌 30 美元,旨在通过 Vertex AI 推动企业级应用。此次发布是 Google 在竞争激烈的市场中采取的一项战略举措,尤其是在 OpenAI 将其 GPT-4o 图像生成器集成到 ChatGPT 之后。Google 旨在通过直接在其聊天应用中面向广大用户来吸引大众市场。
为了应对深度伪造(deepfake)的挑战,Google 在所有生成内容中实施了可见和不可见的 SynthID 数字水印,由 Google DeepMind 开发,明确标识 AI 生成内容的来源。这一举措与 Midjourney 等竞争对手形成对比,后者正面临来自迪士尼和环球影业的高调版权诉讼。通过将用户友好的编辑工具集成到其旗舰 AI 产品中,Google 将 Gemini 定位为一款全面的创意引擎。此举表明 Google 押注于可访问性和信任度,以期在快速发展的生成式 AI 领域赢得主流用户。市场研究表明,AI 图像生成领域竞争激烈,Google 的 Gemini 模型在市场份额方面正与 OpenAI 的 ChatGPT 等竞争对手展开角逐。