Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Salesforce AI ha desarrollado EDICT, un algoritmo de edición que genera difusión de texto a imagen de forma invertible en cualquier modelo existente.

Con los avances recientes en tecnología y en el campo de la Inteligencia Artificial, ha habido muchas innovaciones. Ya sea la generación de texto utilizando el modelo ChatGPT súper popular o la generación de imágenes a partir de un texto, ahora todo es posible. Actualmente, existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también editan una imagen existente. Generar una imagen suele ser más fácil que editar una imagen disponible, ya que se debe mantener muchos detalles finos durante la edición. Para una edición precisa de imágenes basada en texto, los investigadores han desarrollado un nuevo algoritmo, EDICT – Inversión Exacta de Difusión mediante Transformaciones Acopladas. EDICT es un nuevo algoritmo capaz de realizar edición de imágenes guiada por texto con la ayuda de modelos de difusión.

La generación de texto a imagen es una tarea en la que se entrena un modelo de aprendizaje automático para producir una imagen en función de una descripción de texto dada. El modelo aprende a asociar descripciones de texto con imágenes y genera nuevas imágenes que coinciden con la descripción especificada. EDICT realiza la generación de difusión de texto a imagen utilizando cualquier modelo de difusión existente. En la generación de imágenes, los modelos de difusión son modelos generativos que utilizan un proceso de difusión para producir nuevas imágenes. El proceso de difusión comienza desde una imagen aleatoria y luego la filtra de forma iterativa aplicando una serie de transformaciones hasta que se obtiene una imagen final similar a la imagen objetivo. 

Los modelos de difusión se entrenan para generar una imagen sin ruido a partir de una imagen ruidosa con la ayuda de una descripción de texto. Para editar una imagen, se agrega ruido a la imagen original y esta generación parcial se utiliza para realizar una nueva generación utilizando el texto dado. EDICT funciona en base al concepto de obtener una imagen ruidosa que genere exactamente la imagen original cuando se proporcione el texto original o la indicación. Es una especie de técnica de enmascaramiento inverso. De esta manera, si se modifica ligeramente el texto original, la imagen editada se mantendría en su mayoría sin cambios con solo las alteraciones necesarias.

El equipo detrás de EDICT comparte los resultados del algoritmo con la ayuda de un ejemplo. Al generar una imagen de un gato surfeando en el agua editando una imagen existente de un perro surfeando, se pierden muchos detalles e información minuciosa, como las olas, el color de la tabla, etc. Esto se debe a que, en este método, simplemente se agrega ruido a la imagen original para generar la nueva. En la técnica EDICT, se realiza una generación inversa encontrando una imagen ruidosa que generaría exactamente la imagen original. Esta imagen ruidosa luego genera la imagen real del perro surfeando con la ayuda de la leyenda textual. El ruido de la imagen generada se copia para volver a consultar el modelo con la imagen sin ruido. Seguido de esto, se realiza el ajuste en el texto simplemente reemplazando la palabra “perro” por la palabra “gato” y, finalmente, se obtiene una imagen editada comparativamente detallada de un gato surfeando. EDICT funciona simplemente en base a la idea de hacer dos copias idénticas de una imagen e ir mejorando cada una de ellas alternativamente con detalles de la otra de manera reversible.

Este nuevo enfoque sin duda parece prometedor, ya que los modelos actuales de generación de texto a imagen son inconsistentes y no hacen justicia a los detalles de la imagen original. Al invertir el proceso de generación, se puede preservar el contenido importante de la imagen. Teniendo en cuenta las crecientes innovaciones y demandas de estos modelos de generación de imágenes, EDICT parece ser una gran competencia para todos los modelos existentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

La recopilación de datos puede ser una oportunidad primordial para la introducción no intencionada de sesgos de textu...

Inteligencia Artificial

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nue...

Inteligencia Artificial

Actuadores neumáticos proporcionan aceleración similar a la de un robot cheetah

Investigadores de la Universidad de Ciudad del Cabo en Sudáfrica desarrollaron un robot de patas que utiliza actuador...

Inteligencia Artificial

¿Cómo afecta la anonimización de imágenes al rendimiento de la visión por computadora? Explorando técnicas de anonimización tradicionales vs. realistas

La anonimización de imágenes implica modificar datos visuales para proteger la privacidad de las personas al obscenec...

Inteligencia Artificial

Este documento de IA presenta técnicas avanzadas para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Los modelos de alineación de texto e imagen tienen como objetivo establecer una conexión significativa entre el conte...

Inteligencia Artificial

Controversia de Disney en Hollywood ¡Interviene la IA, los escritores y actores se retiran!

En el corazón de Hollywood, la IA se ha convertido en una fuerza polarizante. Los escritores y actores de Disney, cus...