Компанія Google офіційно представила Gemini 2.5 Flash Image, передову модель штучного інтелекту для створення та редагування зображень. Ця нова модель, раніше відома під кодовою назвою "Nano Banana", покликана надати користувачам розширений контроль над модифікацією фотографій, долаючи попередні обмеження можливостей редагування зображень за допомогою ШІ.
Ключові функції Gemini 2.5 Flash Image включають мульти-злиття зображень для об'єднання кількох фотографій в одну, а також послідовність персонажів для збереження схожості суб'єктів під час різних редагувань. Модель підтримує цільові трансформації за допомогою природної мови та інтегрує знання про світ для глибшої, більш релевантної генерації зображень. Це дозволяє здійснювати точні візуальні редагування, від розмиття фону до видалення об'єктів чи зміни пози, використовуючи лише текстові підказки.
Gemini 2.5 Flash Image доступний як для безкоштовних, так і для платних користувачів через додаток Gemini, а також для розробників через Gemini API, Google AI Studio та Vertex AI. Вартість для розробників встановлена на рівні 30 доларів США за 1 мільйон вихідних токенів, що становить приблизно 0,039 долара за зображення. Для запобігання потенційному зловживанню Google впровадив заходи безпеки, включаючи видимий водяний знак та невидимий цифровий тег SynthID на всіх зображеннях, згенерованих або відредагованих за допомогою ШІ.
Модель також забезпечує послідовність шаблонів та брендів, зберігаючи стиль, брендинг та консистенцію персонажів у згенерованих активах або каталогах продуктів. Розширені можливості аналізу використовують семантичні знання Gemini про світ для таких завдань, як розуміння діаграм або освітня анотація, виходячи за межі простої фотореалістичності. Google активно працює над покращенням рендерингу довготривалого тексту та ще більшою точністю у відтворенні персонажів.