Google Lanza Gemini 2.5 Flash Image: Una Nueva Era en la Creación Visual con IA

Editado por: gaya ❤️ one

Google ha lanzado oficialmente Gemini 2.5 Flash Image, un modelo avanzado de generación y edición de imágenes que ya está disponible para desarrolladores y empresas a nivel mundial. Anunciado el 2 de octubre de 2024, esta herramienta se accede a través de la API de Gemini, Google AI Studio y Vertex AI, prometiendo revolucionar la creación visual. El modelo soporta 10 relaciones de aspecto distintas, adaptándose a formatos desde cinematográficos hasta verticales para redes sociales. Una mejora clave es la consistencia de personajes, manteniendo la fidelidad de la apariencia a lo largo de ediciones, un desafío común en la IA generativa de imágenes. Su capacidad multimodal permite procesar texto e imágenes simultáneamente para ediciones más precisas. El coste es de $0.039 por imagen o $30 por millón de tokens de salida, buscando fomentar la adopción empresarial. La startup de IA Cartwheel ha destacado la capacidad del modelo para manejar poses complejas desde cualquier ángulo, manteniendo la fidelidad a la pose y el "conocimiento del mundo", según Andrew Carr, cofundador de Cartwheel. Esta consistencia es crucial para la narrativa visual. El lanzamiento responde a un mercado competitivo, impulsado por la integración de generadores de imágenes de IA por parte de competidores como OpenAI. Google busca una adopción masiva integrando estas herramientas en su ecosistema de chat para una experiencia creativa integral.

Para abordar las preocupaciones sobre "deepfakes" y contenido sintético, Google implementa marcas de agua digitales, visibles e invisibles, a través de SynthID en todo el contenido generado. Esta tecnología, desarrollada por Google DeepMind, incrusta marcas de agua directamente en los píxeles de las imágenes, permitiendo su identificación como contenido de IA sin ser perceptible para el ojo humano. La industria del entretenimiento, incluyendo empresas como Disney y Universal, enfrenta desafíos de derechos de autor con la IA, habiendo presentado demandas contra creadores de IA por el uso no autorizado de personajes y obras en el entrenamiento de modelos. Las medidas de transparencia y autenticidad como SynthID son fundamentales para fomentar la confianza en el contenido generado por IA.

Al integrar herramientas de edición intuitivas, Google posiciona a Gemini como un motor creativo completo, apostando por la accesibilidad y la confianza para atraer a usuarios generales en el campo de la IA generativa. La capacidad de generar imágenes en diversas relaciones de aspecto, como 16:9 o 9:16, amplía las posibilidades creativas, permitiendo a los usuarios adaptar su contenido a las necesidades específicas de cada plataforma. El precio de $0.039 por imagen busca democratizar el acceso a estas potentes herramientas para una amplia gama de usuarios y empresas.

Fuentes

  • WinBuzzer

  • Gemini Flash - Google DeepMind

  • Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

  • Building next-gen visuals with Gemini 2.5 Flash Image (aka nano-banana) on Vertex AI

  • Google I/O 2025: Updates to Gemini 2.5 from Google DeepMind

  • Release notes | Gemini API | Google AI for Developers

¿Encontró un error o inexactitud?

Consideraremos sus comentarios lo antes posible.