Google secara resmi memperkenalkan Gemini 2.5 Flash Image, sebuah model kecerdasan buatan (AI) canggih yang dirancang untuk generasi dan pengeditan gambar. Dikenal dengan nama kode 'Nano Banana', inovasi ini bertujuan untuk memberikan kontrol yang lebih besar kepada pengguna dalam memanipulasi foto, mengatasi keterbatasan yang ada pada kemampuan pengeditan gambar AI sebelumnya.
Gemini 2.5 Flash Image dibangun di atas fondasi penalaran multimodal dan canggih dari Gemini 2.5, yang memungkinkannya untuk memahami gambar dan teks secara native. Arsitektur ini memfasilitasi alur kerja yang mulus untuk pembuatan dan pengeditan visual. Fitur-fitur utamanya meliputi fusi multi-gambar, yang memungkinkan penggabungan beberapa foto menjadi satu gambar yang kohesif, serta konsistensi karakter untuk mempertahankan kemiripan subjek di berbagai pengeditan. Model ini juga mendukung transformasi yang ditargetkan menggunakan perintah bahasa alami, seperti mengubah warna pakaian atau menghapus objek, dan mengintegrasikan pengetahuan dunia untuk generasi gambar yang lebih mendalam dan relevan.
Kemampuan model ini mencakup pengeditan visual yang presisi, di mana ia mendukung modifikasi yang sangat akurat dan terlokalisasi berdasarkan deskripsi bahasa alami. Fusi multimodal memungkinkan penggabungan beberapa gambar referensi, membuka kemungkinan untuk mockup produk yang kompleks atau adegan multi-karakter dalam periklanan. Selain itu, konsistensi merek dan template dijaga dengan baik, memastikan gaya dan branding yang seragam di seluruh aset yang dihasilkan. Kemampuan penalaran canggihnya memanfaatkan pengetahuan dunia semantik Gemini untuk tugas-tugas seperti pemahaman diagram atau anotasi pendidikan, melampaui sekadar rendering fotorealistik.
Model ini tersedia bagi pengguna gratis dan berbayar melalui aplikasi Gemini, serta bagi pengembang melalui Gemini API, Google AI Studio, dan Vertex AI. Untuk pengembang, penetapan harga ditetapkan sebesar $0.039 per gambar, atau sekitar $30.00 per satu juta token keluaran. Ketersediaan API yang terukur ini memungkinkan integrasi yang cepat bagi perusahaan dan pengembang, didukung oleh kemitraan dengan platform seperti OpenRouter dan fal.ai.
Untuk mengatasi potensi penyalahgunaan, Google telah menerapkan langkah-langkah keamanan yang kuat. Setiap gambar yang dihasilkan atau diedit oleh Gemini 2.5 Flash Image akan dilengkapi dengan watermark digital yang terlihat dan tag digital tak terlihat yang disebut SynthID. Fitur-fitur ini memastikan ketertelusuran dan kepatuhan terhadap etika AI, yang merupakan langkah penting dalam lanskap media generatif yang berkembang pesat.
Peluncuran Gemini 2.5 Flash Image menandai kemajuan signifikan dalam pasar pengeditan gambar AI, yang diperkirakan akan terus tumbuh pesat. Laporan menunjukkan bahwa pasar editor gambar AI diperkirakan akan mencapai nilai ratusan miliar dolar dalam dekade mendatang, didorong oleh permintaan akan alat pembuatan konten yang efisien dan berkualitas tinggi. Kemampuan Gemini 2.5 Flash Image untuk menyederhanakan tugas-tugas kompleks, seperti penyesuaian lokal yang menyatu dengan mulus atau generasi variasi gambar, menjadikannya alat yang kuat untuk memberdayakan kreativitas dan efisiensi di berbagai industri, mulai dari pemasaran hingga desain grafis.