Google 正式推出 Gemini 2.5 Flash Image:革新 AI 影像生成與編輯

编辑者: gaya ❤️ one

Google 已於 2025 年 10 月 2 日正式發布 Gemini 2.5 Flash Image,這款先進的人工智慧模型專為影像生成與編輯而設計,現已全面開放給開發者與企業使用。該工具可透過 Gemini API、Google AI Studio 及 Vertex AI 進行存取。

Gemini 2.5 Flash Image 的推出標誌著 AI 影像技術的一大躍進,其核心亮點之一是顯著提升了角色一致性,能夠在進行重大編輯時保持人物形象的連貫性,有效解決了過往 AI 影像模型在處理此類任務時的常見挑戰。此外,該模型還支援多達 10 種不同的長寬比,從寬廣的電影級景觀到垂直的社群媒體格式,都能滿足多元化的平台需求。該模型原生支援多模態能力,使其能夠同時處理文字與影像輸入,進而實現更精確且一致的編輯效果。這種能力讓使用者能夠以前所未有的精準度進行影像操作,例如精確的局部編輯、移除不想要的元素,或是改變物件的姿態,這對於需要細膩調整的創意工作者而言是一大福音。

早期採用者,如 AI 新創公司 Cartwheel,便讚揚了 Gemini 2.5 Flash Image 在處理各種複雜鏡頭角度下的角色姿勢時的卓越表現。其聯合創辦人 Andrew Carr 指出,該模型能夠在保持姿勢忠實度的同時,還能融入「世界知識」,這是其他模型難以企及的成就。在定價方面,Gemini 2.5 Flash Image 的價格設定為每張影像 0.039 美元,或每百萬個輸出代幣 30 美元,旨在透過 Vertex AI 平台推動企業級應用。

為了應對日益嚴峻的深度偽造(deepfake)問題,Google 在所有生成的內容中實施了可見與不可見的 SynthID 浮水印技術,這項技術由 Google DeepMind 開發,明確標示內容的 AI 生成來源。這項措施與 Midjourney 等競爭對手形成對比,後者正因版權問題面臨法律訴訟。此項發布是 Google 在競爭激烈的 AI 影像生成市場中的策略性佈局,尤其是在 OpenAI 將其 GPT-4o 影像生成器整合至 ChatGPT 後,市場競爭更加白熱化。Google 期望透過將使用者友善的編輯工具整合至其旗艦 AI 產品中,將 Gemini 定位為一個全方位的創意引擎,並透過普及性和信任度來贏得廣大使用者。透過提供更強大的功能和更嚴謹的安全措施,Google 展現了其在快速演進的生成式 AI 領域中,致力於建立一個更值得信賴的生態系統的決心。

來源

  • WinBuzzer

  • Gemini Flash - Google DeepMind

  • Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

  • Building next-gen visuals with Gemini 2.5 Flash Image (aka nano-banana) on Vertex AI

  • Google I/O 2025: Updates to Gemini 2.5 from Google DeepMind

  • Release notes | Gemini API | Google AI for Developers

发现错误或不准确的地方吗?

我们会尽快处理您的评论。