Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Salesforce AI ha desarrollado EDICT, un algoritmo de edición que genera difusión de texto a imagen de forma invertible en cualquier modelo existente.

Con los avances recientes en tecnología y en el campo de la Inteligencia Artificial, ha habido muchas innovaciones. Ya sea la generación de texto utilizando el modelo ChatGPT súper popular o la generación de imágenes a partir de un texto, ahora todo es posible. Actualmente, existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también editan una imagen existente. Generar una imagen suele ser más fácil que editar una imagen disponible, ya que se debe mantener muchos detalles finos durante la edición. Para una edición precisa de imágenes basada en texto, los investigadores han desarrollado un nuevo algoritmo, EDICT – Inversión Exacta de Difusión mediante Transformaciones Acopladas. EDICT es un nuevo algoritmo capaz de realizar edición de imágenes guiada por texto con la ayuda de modelos de difusión.

La generación de texto a imagen es una tarea en la que se entrena un modelo de aprendizaje automático para producir una imagen en función de una descripción de texto dada. El modelo aprende a asociar descripciones de texto con imágenes y genera nuevas imágenes que coinciden con la descripción especificada. EDICT realiza la generación de difusión de texto a imagen utilizando cualquier modelo de difusión existente. En la generación de imágenes, los modelos de difusión son modelos generativos que utilizan un proceso de difusión para producir nuevas imágenes. El proceso de difusión comienza desde una imagen aleatoria y luego la filtra de forma iterativa aplicando una serie de transformaciones hasta que se obtiene una imagen final similar a la imagen objetivo.

Los modelos de difusión se entrenan para generar una imagen sin ruido a partir de una imagen ruidosa con la ayuda de una descripción de texto. Para editar una imagen, se agrega ruido a la imagen original y esta generación parcial se utiliza para realizar una nueva generación utilizando el texto dado. EDICT funciona en base al concepto de obtener una imagen ruidosa que genere exactamente la imagen original cuando se proporcione el texto original o la indicación. Es una especie de técnica de enmascaramiento inverso. De esta manera, si se modifica ligeramente el texto original, la imagen editada se mantendría en su mayoría sin cambios con solo las alteraciones necesarias.

El equipo detrás de EDICT comparte los resultados del algoritmo con la ayuda de un ejemplo. Al generar una imagen de un gato surfeando en el agua editando una imagen existente de un perro surfeando, se pierden muchos detalles e información minuciosa, como las olas, el color de la tabla, etc. Esto se debe a que, en este método, simplemente se agrega ruido a la imagen original para generar la nueva. En la técnica EDICT, se realiza una generación inversa encontrando una imagen ruidosa que generaría exactamente la imagen original. Esta imagen ruidosa luego genera la imagen real del perro surfeando con la ayuda de la leyenda textual. El ruido de la imagen generada se copia para volver a consultar el modelo con la imagen sin ruido. Seguido de esto, se realiza el ajuste en el texto simplemente reemplazando la palabra “perro” por la palabra “gato” y, finalmente, se obtiene una imagen editada comparativamente detallada de un gato surfeando. EDICT funciona simplemente en base a la idea de hacer dos copias idénticas de una imagen e ir mejorando cada una de ellas alternativamente con detalles de la otra de manera reversible.

Este nuevo enfoque sin duda parece prometedor, ya que los modelos actuales de generación de texto a imagen son inconsistentes y no hacen justicia a los detalles de la imagen original. Al invertir el proceso de generación, se puede preservar el contenido importante de la imagen. Teniendo en cuenta las crecientes innovaciones y demandas de estos modelos de generación de imágenes, EDICT parece ser una gran competencia para todos los modelos existentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceCountryDeep LearningEditors PickLarge Language ModelMachine LearningSalesforce ResearchStaffTech NewsTechnologyUncategorizedUnicornsUSA

Was this article helpful?

93 out of 132 found this helpful

Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Was this article helpful?

Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI

API de Moderación de ChatGPT Control de Entrada/Salida

Inteligencia Artificial

Esta investigación de Aprendizaje Automático desarrolla un modelo de IA para eliminar de manera efectiva los sesgos en un conjunto de datos.

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Actuadores neumáticos proporcionan aceleración similar a la de un robot cheetah

¿Cómo afecta la anonimización de imágenes al rendimiento de la visión por computadora? Explorando técnicas de anonimización tradicionales vs. realistas

Este documento de IA presenta técnicas avanzadas para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Controversia de Disney en Hollywood ¡Interviene la IA, los escritores y actores se retiran!