Google 正式發布了其最新的 AI 影像模型 Gemini 2.5 Flash Image,此模型先前以「Nano Banana」的代號進行開發,旨在為使用者提供前所未有的影像生成與編輯能力。這項技術的推出,標誌著 Google 在人工智慧影像處理領域的重大進展,為創意產業和內容創作者帶來了更強大的工具。
Gemini 2.5 Flash Image 的核心亮點在於其多功能性與精準度。它支援「多圖像融合」,能夠將多張圖片無縫結合,創造出單一的、更具敘事性的視覺內容,例如將產品融入新場景或重塑空間設計。此外,「角色與風格一致性」功能確保了在不同編輯操作中,人物或物件的外觀能保持連貫,這對於品牌視覺識別和連續性故事創作至關重要。使用者可以透過自然語言提示進行精準的「目標轉換」,例如調整背景模糊度、移除特定物件或改變人物姿態,大幅簡化了過去複雜的手動編輯流程。
這項先進的 AI 模型不僅提升了影像編輯的效率,更擴展了其應用範圍。Gemini 2.5 Flash Image 整合了 Gemini 模型豐富的「世界知識」,使其能夠理解並處理更複雜的任務,例如解析手繪圖表或提供教育性內容的輔助。這項能力使得影像生成不僅止於美學,更能深入理解現實世界的脈絡。
為了確保內容的透明度與責任歸屬,Google 在所有由 Gemini 2.5 Flash Image 生成或編輯的影像中嵌入了「SynthID」數位浮水印。這項技術能夠在影像中植入肉眼無法察覺但可被偵測的標記,以區分真實內容與 AI 生成內容,進一步鞏固了 Google 在負責任 AI 發展上的承諾。
在可及性方面,Gemini 2.5 Flash Image 已透過 Gemini API、Google AI Studio 和 Vertex AI 提供給開發者和企業用戶。其定價策略為每 100 萬個輸出代幣 30 美元,平均每張影像約為 0.039 美元,展現了 Google 在提供高效能 AI 服務的同時,也兼顧了成本效益。此模型的推出,不僅回應了市場對更高品質影像編輯工具的需求,也預示著 AI 在創意領域的應用將更加廣泛和深入,為使用者帶來更豐富的視覺體驗與創作可能性。據悉,該模型預計在未來幾週內從預覽階段轉為穩定發布,顯示其發展的快速與成熟度。