Google Uruchamia Gemini 2.5 Flash Image: Nowa Era w Generowaniu Obrazów AI

Edytowane przez: gaya ❤️ one

Google oficjalnie wprowadziło Gemini 2.5 Flash Image, zaawansowany model sztucznej inteligencji przeznaczony do generowania i edycji obrazów, który będzie dostępny dla deweloperów i przedsiębiorstw. Ogłoszony 2 października 2025 roku, to gotowe do produkcji narzędzie będzie dostępne za pośrednictwem Gemini API, Google AI Studio i Vertex AI.

Model wprowadza obsługę 10 różnych proporcji obrazu, od kinowych krajobrazów po pionowe formaty mediów społecznościowych, co pozwala na tworzenie treści dostosowanych do różnorodnych platform. Kluczowym ulepszeniem jest poprawiona spójność postaci, która zachowuje podobieństwo w kluczowych edycjach, rozwiązując tym samym powszechne wyzwanie w modelach generowania obrazów AI. Gemini 2.5 Flash Image posiada również natywną zdolność multimodalną, umożliwiającą jednoczesne przetwarzanie tekstu i obrazów dla bardziej precyzyjnych i spójnych edycji.

Cena została ustalona na 0,039 USD za obraz i 30 USD za milion tokenów wyjściowych, co ma na celu zwiększenie adopcji korporacyjnej za pośrednictwem Vertex AI. Wczesni użytkownicy chwalą jego unikalne możliwości. Startup AI Cartwheel uznał model za biegły w obsłudze złożonych póz z dowolnego kąta kamery, a współzałożyciel Andrew Carr zauważył jego zdolność do zapewnienia zarówno wierności pozom, jak i „wiedzy o świecie” – co stanowi wyczyn, z którym inne modele miały trudności. Model ten, znany również pod pseudonimem „nano-banana”, wyróżnia się niskim czasem reakcji, zazwyczaj poniżej 10 sekund, co umożliwia zastosowania w czasie rzeczywistym.

To uruchomienie jest strategiczną odpowiedzią na konkurencyjny rynek, zintensyfikowany przez integrację generatora obrazów GPT-4o firmy OpenAI z ChatGPT. Google dąży do masowej adopcji, celując w szeroką grupę odbiorców bezpośrednio w swojej aplikacji czatu. W celu zwalczania deepfake'ów, Google implementuje widoczne i niewidoczne znaki wodne SynthID na wszystkich generowanych treściach, jasno wskazując pochodzenie AI. Stanowi to kontrast w porównaniu z konkurentami takimi jak Midjourney, który stoi w obliczu głośnego procesu o prawa autorskie ze strony Disneya i Universal. Prawo autorskie do obrazów generowanych przez AI pozostaje obszarem prawnym w toku, z trwającymi procesami sądowymi dotyczącymi wykorzystania materiałów chronionych prawem autorskich do trenowania modeli. Poprzez integrację przyjaznych dla użytkownika narzędzi do edycji w swoim flagowym produkcie AI, Google pozycjonuje Gemini jako wszechstronny silnik kreatywny. Ten ruch oznacza zakład na dostępność i zaufanie, aby zdobyć użytkowników głównego nurtu w szybko rozwijającej się dziedzinie generatywnej sztucznej inteligencji. Rynek generatorów obrazów AI jest wysoce konkurencyjny, z prognozowanym wzrostem do 22,66 miliardów dolarów do 2032 roku, co podkreśla dynamiczny rozwój tej technologii.

Źródła

  • WinBuzzer

  • Gemini Flash - Google DeepMind

  • Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

  • Building next-gen visuals with Gemini 2.5 Flash Image (aka nano-banana) on Vertex AI

  • Google I/O 2025: Updates to Gemini 2.5 from Google DeepMind

  • Release notes | Gemini API | Google AI for Developers

Czy znalazłeś błąd lub niedokładność?

Rozważymy Twoje uwagi tak szybko, jak to możliwe.