Google представляет Gemini 2.5 Flash Image: новый этап в генерации и редактировании изображений
Отредактировано: Veronika Radoslavskaya
Google официально представил Gemini 2.5 Flash Image, передовую ИИ-модель для генерации и редактирования изображений, ранее известную под кодовым названием 'Nano Banana'. Эта модель призвана предоставить пользователям расширенный контроль над модификацией фотографий, устраняя прежние ограничения в возможностях редактирования изображений с помощью ИИ.
Ключевые возможности Gemini 2.5 Flash Image включают мульти-слияние изображений для объединения нескольких фотографий в одну, а также поддержание согласованности персонажей для сохранения сходства объекта в различных редакциях. Модель также поддерживает целевые трансформации с использованием естественного языка и интегрирует мировые знания для более глубокой и релевантной генерации изображений. Gemini 2.5 Flash Image доступен как для бесплатных, так и для платных пользователей через приложение Gemini, а также для разработчиков через Gemini API, Google AI Studio и Vertex AI.
Стоимость для разработчиков составляет 30 долларов США за 1 миллион выходных токенов, что примерно равно 0,039 доллара за изображение. Для предотвращения потенциального злоупотребления Google внедрил меры безопасности, включая видимый водяной знак и невидимый цифровой тег SynthID на всех изображениях, сгенерированных или отредактированных с помощью ИИ. Этот запуск укрепляет позиции Google на рынке редактирования изображений с помощью ИИ благодаря точным и удобным инструментам.
Gemini 2.5 Flash Image выделяется своей способностью к точным визуальным правкам, позволяя пользователям изменять изображения с помощью естественного языка, например, размывать фон, удалять объекты или корректировать позы. Мультимодальное слияние позволяет объединять несколько изображений для создания сложных композиций, таких как продуктовые макеты или сцены с несколькими персонажами. Важной особенностью является поддержание согласованности персонажей и стиля, что критически важно для повествования, брендинга и создания серий последовательных материалов без необходимости трудоемкой доработки.
Модель также использует глубокие знания Gemini о мире для выполнения сложных задач, требующих реального понимания, например, интерпретации диаграмм или помощи в образовательных запросах. Внедрение SynthID, инструмента невидимого водяного знака от Google DeepMind, обеспечивает прозрачность и отслеживаемость контента, созданного с помощью ИИ. Это подчеркивает стремление Google к ответственной разработке и использованию искусственного интеллекта.
Появление Gemini 2.5 Flash Image является значительным шагом вперед, предлагая пользователям и разработчикам беспрецедентный уровень контроля и качества в области генерации и редактирования изображений, что позиционирует Google как лидера в этой быстро развивающейся сфере.
Источники
Republic World
Introducing Gemini 2.5 Flash Image, our state-of-the-art image model
Google Gemini’s AI image model gets a ‘bananas’ upgrade
Google Gemini 2.5 Flash Image brings a new 'bananas' upgrade to AI image generation
Nano banana is here: Google unveils Gemini 2.5 Flash Image upgrade
Google’s Gemini 2.5 Flash Image does it all – From blurring backgrounds to multi-image fusion
Читайте больше новостей по этой теме:
Вы нашли ошибку или неточность?
Мы учтем ваши комментарии как можно скорее.
