Google представляет Gemini 2.5 Flash Image: новый этап в генерации и редактировании изображений

09:26, 27 августа

Отредактировано: Veronika Radoslavskaya

Google официально представил Gemini 2.5 Flash Image, передовую ИИ-модель для генерации и редактирования изображений, ранее известную под кодовым названием 'Nano Banana'. Эта модель призвана предоставить пользователям расширенный контроль над модификацией фотографий, устраняя прежние ограничения в возможностях редактирования изображений с помощью ИИ.

Ключевые возможности Gemini 2.5 Flash Image включают мульти-слияние изображений для объединения нескольких фотографий в одну, а также поддержание согласованности персонажей для сохранения сходства объекта в различных редакциях. Модель также поддерживает целевые трансформации с использованием естественного языка и интегрирует мировые знания для более глубокой и релевантной генерации изображений. Gemini 2.5 Flash Image доступен как для бесплатных, так и для платных пользователей через приложение Gemini, а также для разработчиков через Gemini API, Google AI Studio и Vertex AI.

Стоимость для разработчиков составляет 30 долларов США за 1 миллион выходных токенов, что примерно равно 0,039 доллара за изображение. Для предотвращения потенциального злоупотребления Google внедрил меры безопасности, включая видимый водяной знак и невидимый цифровой тег SynthID на всех изображениях, сгенерированных или отредактированных с помощью ИИ. Этот запуск укрепляет позиции Google на рынке редактирования изображений с помощью ИИ благодаря точным и удобным инструментам.

Gemini 2.5 Flash Image выделяется своей способностью к точным визуальным правкам, позволяя пользователям изменять изображения с помощью естественного языка, например, размывать фон, удалять объекты или корректировать позы. Мультимодальное слияние позволяет объединять несколько изображений для создания сложных композиций, таких как продуктовые макеты или сцены с несколькими персонажами. Важной особенностью является поддержание согласованности персонажей и стиля, что критически важно для повествования, брендинга и создания серий последовательных материалов без необходимости трудоемкой доработки.

Модель также использует глубокие знания Gemini о мире для выполнения сложных задач, требующих реального понимания, например, интерпретации диаграмм или помощи в образовательных запросах. Внедрение SynthID, инструмента невидимого водяного знака от Google DeepMind, обеспечивает прозрачность и отслеживаемость контента, созданного с помощью ИИ. Это подчеркивает стремление Google к ответственной разработке и использованию искусственного интеллекта.

Появление Gemini 2.5 Flash Image является значительным шагом вперед, предлагая пользователям и разработчикам беспрецедентный уровень контроля и качества в области генерации и редактирования изображений, что позиционирует Google как лидера в этой быстро развивающейся сфере.

Источники

Republic World
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model
Google Gemini’s AI image model gets a ‘bananas’ upgrade
Google Gemini 2.5 Flash Image brings a new 'bananas' upgrade to AI image generation
Nano banana is here: Google unveils Gemini 2.5 Flash Image upgrade
Google’s Gemini 2.5 Flash Image does it all – From blurring backgrounds to multi-image fusion

Читайте больше новостей по этой теме:

11 сентября

Албания назначает ИИ-министра для борьбы с коррупцией и повышения прозрачности

09 сентября

Claude AI теперь редактирует файлы

08 сентября

Amazon Kuiper достигает скорости 1,2 Гбит/с, открывая новые горизонты спутникового интернета

Вы нашли ошибку или неточность?

Мы учтем ваши комментарии как можно скорее.