Google prezentuje Gemini 2.5 Flash Image: Nowa era w generowaniu i edycji obrazów

Edytowane przez: Veronika Radoslavskaya

Google oficjalnie zaprezentowało Gemini 2.5 Flash Image, swój najnowszy model sztucznej inteligencji przeznaczony do generowania i edycji obrazów, znany pod kryptonimem „Nano Banana”. Ta zaawansowana technologia ma na celu zrewolucjonizowanie sposobu, w jaki użytkownicy i deweloperzy wchodzą w interakcję z treściami wizualnymi, oferując bezprecedensową kontrolę i precyzję.

Kluczowe innowacje Gemini 2.5 Flash Image obejmują fuzję wielu obrazów, która pozwala na płynne łączenie wielu zdjęć w jedną spójną całość. Funkcja ta umożliwia na przykład integrację produktu z nową scenografią lub metamorfozę wnętrza poprzez połączenie różnych elementów wyposażenia. Kolejnym przełomem jest zachowanie spójności postaci i stylu, co pozwala utrzymać podobieństwo obiektu lub postaci w różnych edycjach i ujęciach. Jest to kluczowe dla tworzenia narracji wizualnych, budowania marek i generowania spójnych materiałów bez konieczności czasochłonnego dostrajania.

Model umożliwia również precyzyjne transformacje z wykorzystaniem języka naturalnego. Użytkownicy mogą wprowadzać szczegółowe zmiany, takie jak rozmycie tła, usunięcie obiektu, zmiana pozy postaci czy nawet koloryzacja czarno-białych fotografii, po prostu opisując pożądany efekt. Dodatkowo, Gemini 2.5 Flash Image integruje wiedzę o świecie, co pozwala na głębsze i bardziej kontekstowe generowanie obrazów, a nawet rozumienie i interpretację szkiców czy diagramów.

Gemini 2.5 Flash Image jest dostępny zarówno dla użytkowników darmowych, jak i płatnych za pośrednictwem aplikacji Gemini. Deweloperzy mogą skorzystać z modelu poprzez Gemini API, Google AI Studio oraz platformę Vertex AI. Koszt dla deweloperów ustalono na 30 dolarów za milion tokenów wyjściowych, co przekłada się na około 0,039 dolara za obraz. Ta przystępna cena, w połączeniu z wysoką wydajnością, czyni go atrakcyjnym narzędziem dla szerokiego grona twórców i firm.

W celu zapobiegania potencjalnemu nadużywaniu technologii, Google wdrożyło szereg środków bezpieczeństwa. Wszystkie obrazy generowane lub edytowane za pomocą Gemini 2.5 Flash Image są opatrywane widocznym znakiem wodnym „AI” oraz niewidocznym cyfrowym znacznikiem SynthID. Te zabezpieczenia mają na celu zapewnienie przejrzystości i ułatwienie identyfikacji treści jako generowanych przez sztuczną inteligencję, co jest kluczowe w budowaniu zaufania i zapobieganiu dezinformacji.

Model ten zdobył już uznanie w rankingach, zajmując czołowe miejsca w benchmarkach, takich jak LMArena, wyprzedzając konkurencyjne rozwiązania pod względem jakości edycji i zgodności z poleceniami. Integracja z platformami takimi jak Adobe Firefly i Adobe Express dodatkowo poszerza jego dostępność i zastosowanie w profesjonalnych narzędziach kreatywnych. Google stale pracuje nad dalszym udoskonalaniem modelu, w tym nad lepszym renderowaniem długich tekstów i jeszcze większą spójnością postaci, co zapowiada dalszy rozwój w dziedzinie multimodalnej sztucznej inteligencji.

Źródła

  • Republic World

  • Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

  • Google Gemini’s AI image model gets a ‘bananas’ upgrade

  • Google Gemini 2.5 Flash Image brings a new 'bananas' upgrade to AI image generation

  • Nano banana is here: Google unveils Gemini 2.5 Flash Image upgrade

  • Google’s Gemini 2.5 Flash Image does it all – From blurring backgrounds to multi-image fusion

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.