Google presenta Gemini 2.5 Flash Image: un nuevo avance en la edición de imágenes con IA

El último modelo "nano-banana" de Google está redefiniendo los límites de la generación y edición de imágenes con IA, elevando el control creativo y la edición precisa a alturas sin precedentes.

Google ha demostrado una vez más su capacidad de innovación en el campo de la IA con el lanzamiento de Gemini 2.5 Flash Image (apodado "nano-banana"), un modelo revolucionario para la generación y edición de imágenes.

Este modelo ya está disponible para usuarios empresariales a través de Gemini API, Google AI Studio y Vertex AI, y se ha integrado en la aplicación Gemini.

La ventaja principal de este nuevo modelo radica en: su capacidad para comprender instrucciones en lenguaje natural y realizar ediciones precisas, mantener la consistencia de personajes a través de imágenes, fusionar elementos de múltiples imágenes y utilizar el amplio conocimiento mundial de Google para generar contenido más realista.

¿Qué es Gemini 2.5 Flash Image?
Gemini 2.5 Flash Image es el miembro más nuevo de la serie de modelos de IA Gemini de Google, optimizado específicamente para tareas de generación y edición de imágenes.

Se le conoce cariñosamente como "nano-banana", un nombre que proviene del seudónimo anónimo utilizado durante las pruebas en la plataforma de evaluación LMArena.

El precio del modelo es de 30 dólares por 1 millón de tokens de salida, con un coste de 1.290 tokens por imagen, equivalente a aproximadamente 0,039 dólares por imagen. Esto lo convierte en una solución de IA para imágenes tanto eficiente como asequible.

Funciones principales e innovaciones

Excelente consistencia de personajes
El equipo de Google DeepMind se ha enfocado desde abril en mejorar "mantener la similitud de personajes de una imagen a la siguiente".

Esto significa que ya sea probando un peinado beehive de los años 60 para un amigo o vistiendo a un chihuahua con un tutú de ballet, las imágenes generadas mantendrán las características consistentes de la persona o mascota.

Capacidad de fusión de múltiples imágenes
Los usuarios pueden subir múltiples fotos y fusionarlas. Por ejemplo, se puede hacer una solicitud como: "crea una imagen de la mujer en la foto abrazando a un perro en una cancha de baloncesto".

Esta función abre nuevas posibilidades para la expresión creativa, permitiendo a los usuarios combinar diferentes elementos perfectamente en una sola imagen.

Transformación precisa de objetivos y mezcla de diseños
Con indicaciones en lenguaje natural, los usuarios pueden realizar ediciones y transformaciones precisas. Puedes "aplicar el estilo de una imagen a un objeto en otra imagen".

Por ejemplo: "conviértelo en un vestido stunning, usado por una mujer caminando por las calles de Nueva York" o "reimagina la forma y estilo de estas botas de lluvia completamente inspiradas en imágenes florales".

Experiencia de edición en múltiples rondas
Las demostraciones de Google muestran cómo visualizar una habitación vacía después de aplicar nueva pintura y agregar muebles específicos. Esta interacción en múltiples rondas permite a los usuarios refinar y ajustar gradualmente sus creaciones visuales.

Capacidad técnica y posicionamiento en el mercado
Gemini 2.5 Flash Image no solo es impresionante en funcionalidad, sino que también sobresale en pruebas de referencia técnica. Actualmente es el modelo de edición de imágenes mejor calificado en LMArena, lo que indica su liderazgo en rendimiento real.

La directora de producto de Google, Nicole Brichtova, afirmó: "Realmente hemos impulsado el desarrollo de la calidad visual y la capacidad del modelo para seguir instrucciones".

Los modelos de imágenes de IA se han convertido en un campo clave de competencia entre los gigantes tecnológicos. Cuando OpenAI presentó el generador de imágenes nativo de GPT-4o en marzo, impulsó el uso de ChatGPT, generando una gran cantidad de memes con estilo Ghibli creados con IA, lo que según el CEO de OpenAI, Sam Altman, hizo que las GPU de la empresa se "derritieran".

Para mantenerse competitiva, Meta anunció recientemente que licenciará modelos de imágenes de IA de Midjourney, mientras que la startup alemana Black Forest Labs, respaldada por a16z, continúa dominando las pruebas de referencia con su modelo de imágenes de IA FLUX.

Escenarios de aplicación práctica
Google diseñó específicamente este modelo de imágenes centrándose en escenarios de uso consumer. Por ejemplo, puede ayudar a los usuarios a visualizar sus proyectos de hogar y jardín.

El modelo también tiene un mejor "conocimiento mundial" que le permite combinar múltiples referencias en una sola indicación; por ejemplo, fusionar imágenes de sofás, fotos de salas y paletas de colores en una representación cohesiva.

Seguridad y responsabilidad
Si bien el nuevo generador de imágenes de IA de Gemini facilita a los usuarios crear y editar imágenes realistas, la empresa ha establecido salvaguardas que limitan el contenido que los usuarios pueden crear.

Google ha tenido dificultades en el pasado con las medidas de seguridad de sus generadores de imágenes de IA, incluso se disculpó por generar imágenes históricamente inexactas de personas y retiró completamente su generador de imágenes de IA en un momento dado.

Ahora, Google siente que ha encontrado un mejor equilibrio. Brichtova declaró: "Queremos dar a los usuarios control creativo para que puedan obtener lo que desean del modelo, pero no todo vale".

Los términos de servicio de la sección de IA generativa de Google prohíben a los usuarios generar "imágenes íntimas sin consentimiento". Para abordar el problema de las deepfakes, Google aplica marcas de agua visuales y identificadores en los metadatos de las imágenes generadas por IA.

Disponibilidad e integración
Gemini 2.5 Flash Image se está implementando para todos los usuarios a través de la aplicación Gemini. Para desarrolladores y usuarios empresariales, está disponible a través de Gemini API, Google AI Studio y Vertex AI.

Las funciones actualizadas de edición de imágenes de Gemini comenzaron a implementarse el 26 de agosto, con marca de agua "ai" y SynthID invisible, lo que garantiza la trazabilidad y seguridad del contenido generado.

Gemini 2.5 Flash Image de Google representa un avance significativo en el campo de la generación y edición de imágenes con IA. No solo logra avances técnicos, sino que también ofrece nuevas posibilidades en términos de experiencia de usuario y escenarios de aplicación práctica.

A medida que la tecnología de imágenes de IA continúa desarrollándose, podemos ver que el listón de la expresión creativa se está reduciendo, mientras que la capacidad de control preciso aumenta.

Esto significa que diseñadores, especialistas en marketing, creadores de contenido e incluso usuarios comunes pueden convertir sus ideas visuales en realidad, independientemente de su nivel de habilidad técnica.

凉风网

菜单

Google presenta Gemini 2.5 Flash Image: un nuevo avance en la edición de imágenes con IA