Google официально представил Gemini 2.5 Flash Image, передовую ИИ-модель для генерации и редактирования изображений, ранее известную под кодовым названием 'Nano Banana'. Эта модель призвана предоставить пользователям расширенный контроль над модификацией фотографий, устраняя прежние ограничения в возможностях редактирования изображений с помощью ИИ.
Ключевые возможности Gemini 2.5 Flash Image включают мульти-слияние изображений для объединения нескольких фотографий в одну, а также поддержание согласованности персонажей для сохранения сходства объекта в различных редакциях. Модель также поддерживает целевые трансформации с использованием естественного языка и интегрирует мировые знания для более глубокой и релевантной генерации изображений. Gemini 2.5 Flash Image доступен как для бесплатных, так и для платных пользователей через приложение Gemini, а также для разработчиков через Gemini API, Google AI Studio и Vertex AI.
Стоимость для разработчиков составляет 30 долларов США за 1 миллион выходных токенов, что примерно равно 0,039 доллара за изображение. Для предотвращения потенциального злоупотребления Google внедрил меры безопасности, включая видимый водяной знак и невидимый цифровой тег SynthID на всех изображениях, сгенерированных или отредактированных с помощью ИИ. Этот запуск укрепляет позиции Google на рынке редактирования изображений с помощью ИИ благодаря точным и удобным инструментам.
Gemini 2.5 Flash Image выделяется своей способностью к точным визуальным правкам, позволяя пользователям изменять изображения с помощью естественного языка, например, размывать фон, удалять объекты или корректировать позы. Мультимодальное слияние позволяет объединять несколько изображений для создания сложных композиций, таких как продуктовые макеты или сцены с несколькими персонажами. Важной особенностью является поддержание согласованности персонажей и стиля, что критически важно для повествования, брендинга и создания серий последовательных материалов без необходимости трудоемкой доработки.
Модель также использует глубокие знания Gemini о мире для выполнения сложных задач, требующих реального понимания, например, интерпретации диаграмм или помощи в образовательных запросах. Внедрение SynthID, инструмента невидимого водяного знака от Google DeepMind, обеспечивает прозрачность и отслеживаемость контента, созданного с помощью ИИ. Это подчеркивает стремление Google к ответственной разработке и использованию искусственного интеллекта.
Появление Gemini 2.5 Flash Image является значительным шагом вперед, предлагая пользователям и разработчикам беспрецедентный уровень контроля и качества в области генерации и редактирования изображений, что позиционирует Google как лидера в этой быстро развивающейся сфере.