Компанія Google офіційно представила Gemini 2.5 Flash Image, передову модель штучного інтелекту для створення та редагування зображень, яка тепер загальнодоступна для розробників та підприємств. Цей інструмент, анонсований 2 жовтня 2025 року, доступний через Gemini API, Google AI Studio та Vertex AI.
Модель підтримує 10 різних співвідношень сторін, що дозволяє створювати контент для різноманітних платформ. Ключовим вдосконаленням є покращена консистентність персонажів, що дозволяє зберігати їхню подобу при значних редагуваннях. Gemini 2.5 Flash Image також має нативну мультимодальну здатність, обробляючи текст та зображення одночасно для більш точного та послідовного редагування. Вартість становить 0,039 долара за зображення та 30 доларів за мільйон вихідних токенів.
Стартап у сфері ШІ Cartwheel, в особі співзасновника Ендрю Карра, відзначив, що модель ефективно справляється зі складними позами з будь-якого ракурсу. Це свідчить про глибше розуміння моделлю контексту та взаємозв'язків у зображеннях. Цей запуск є стратегічною відповіддю на конкурентний ринок, який загострився завдяки інтеграції OpenAI свого генератора зображень GPT-4o в ChatGPT. Google прагне до масового впровадження, орієнтуючись на широку аудиторію безпосередньо у своєму чат-додатку.
Щоб боротися з діпфейками, Google впроваджує видимі та невидимі водяні знаки SynthID на весь згенерований контент, чітко вказуючи на походження ШІ. Ця технологія розроблена Google DeepMind, що відрізняє її підхід від конкурентів, які стикаються з судовим позовом щодо авторських прав. Інтегруючи зручні інструменти редагування у свій флагманський продукт ШІ, Google позиціонує Gemini як комплексний творчий двигун. Запровадження SynthID є важливим кроком для забезпечення прозорості та боротьби з дезінформацією.