Google 正式推出 Gemini 2.5 Flash Image：革新 AI 影像生成與編輯

11:05, 03 十月

编辑者： gaya ❤️ one

Google 已於 2025 年 10 月 2 日正式發布 Gemini 2.5 Flash Image，這款先進的人工智慧模型專為影像生成與編輯而設計，現已全面開放給開發者與企業使用。該工具可透過 Gemini API、Google AI Studio 及 Vertex AI 進行存取。

Gemini 2.5 Flash Image 的推出標誌著 AI 影像技術的一大躍進，其核心亮點之一是顯著提升了角色一致性，能夠在進行重大編輯時保持人物形象的連貫性，有效解決了過往 AI 影像模型在處理此類任務時的常見挑戰。此外，該模型還支援多達 10 種不同的長寬比，從寬廣的電影級景觀到垂直的社群媒體格式，都能滿足多元化的平台需求。該模型原生支援多模態能力，使其能夠同時處理文字與影像輸入，進而實現更精確且一致的編輯效果。這種能力讓使用者能夠以前所未有的精準度進行影像操作，例如精確的局部編輯、移除不想要的元素，或是改變物件的姿態，這對於需要細膩調整的創意工作者而言是一大福音。

早期採用者，如 AI 新創公司 Cartwheel，便讚揚了 Gemini 2.5 Flash Image 在處理各種複雜鏡頭角度下的角色姿勢時的卓越表現。其聯合創辦人 Andrew Carr 指出，該模型能夠在保持姿勢忠實度的同時，還能融入「世界知識」，這是其他模型難以企及的成就。在定價方面，Gemini 2.5 Flash Image 的價格設定為每張影像 0.039 美元，或每百萬個輸出代幣 30 美元，旨在透過 Vertex AI 平台推動企業級應用。

為了應對日益嚴峻的深度偽造（deepfake）問題，Google 在所有生成的內容中實施了可見與不可見的 SynthID 浮水印技術，這項技術由 Google DeepMind 開發，明確標示內容的 AI 生成來源。這項措施與 Midjourney 等競爭對手形成對比，後者正因版權問題面臨法律訴訟。此項發布是 Google 在競爭激烈的 AI 影像生成市場中的策略性佈局，尤其是在 OpenAI 將其 GPT-4o 影像生成器整合至 ChatGPT 後，市場競爭更加白熱化。Google 期望透過將使用者友善的編輯工具整合至其旗艦 AI 產品中，將 Gemini 定位為一個全方位的創意引擎，並透過普及性和信任度來贏得廣大使用者。透過提供更強大的功能和更嚴謹的安全措施，Google 展現了其在快速演進的生成式 AI 領域中，致力於建立一個更值得信賴的生態系統的決心。

來源

WinBuzzer
Gemini Flash - Google DeepMind
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model
Building next-gen visuals with Gemini 2.5 Flash Image (aka nano-banana) on Vertex AI
Google I/O 2025: Updates to Gemini 2.5 from Google DeepMind
Release notes | Gemini API | Google AI for Developers

閱讀更多有關此主題的新聞：

21 十一月

Perplexity 推出 AI 原生瀏覽器 Comet，正式登陸 Android 平台

19 十一月

Google 於 11 月 18 日發表 Gemini 3 模型並即時整合至搜尋引擎AI模式

17 十一月

X 推出「Chat」，一個全新的加密訊息與通話平台

发现错误或不准确的地方吗？

我们会尽快处理您的评论。

通知中心

通知中心

Google 正式推出 Gemini 2.5 Flash Image：革新 AI 影像生成與編輯

來源

閱讀更多有關此主題的新聞：