Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.
Salesforce AI ha desarrollado EDICT, un algoritmo de edición que genera difusión de texto a imagen de forma invertible en cualquier modelo existente.
Con los avances recientes en tecnología y en el campo de la Inteligencia Artificial, ha habido muchas innovaciones. Ya sea la generación de texto utilizando el modelo ChatGPT súper popular o la generación de imágenes a partir de un texto, ahora todo es posible. Actualmente, existen varios modelos de texto a imagen que no solo producen una imagen nueva a partir de una descripción textual, sino que también editan una imagen existente. Generar una imagen suele ser más fácil que editar una imagen disponible, ya que se debe mantener muchos detalles finos durante la edición. Para una edición precisa de imágenes basada en texto, los investigadores han desarrollado un nuevo algoritmo, EDICT – Inversión Exacta de Difusión mediante Transformaciones Acopladas. EDICT es un nuevo algoritmo capaz de realizar edición de imágenes guiada por texto con la ayuda de modelos de difusión.
La generación de texto a imagen es una tarea en la que se entrena un modelo de aprendizaje automático para producir una imagen en función de una descripción de texto dada. El modelo aprende a asociar descripciones de texto con imágenes y genera nuevas imágenes que coinciden con la descripción especificada. EDICT realiza la generación de difusión de texto a imagen utilizando cualquier modelo de difusión existente. En la generación de imágenes, los modelos de difusión son modelos generativos que utilizan un proceso de difusión para producir nuevas imágenes. El proceso de difusión comienza desde una imagen aleatoria y luego la filtra de forma iterativa aplicando una serie de transformaciones hasta que se obtiene una imagen final similar a la imagen objetivo.
Los modelos de difusión se entrenan para generar una imagen sin ruido a partir de una imagen ruidosa con la ayuda de una descripción de texto. Para editar una imagen, se agrega ruido a la imagen original y esta generación parcial se utiliza para realizar una nueva generación utilizando el texto dado. EDICT funciona en base al concepto de obtener una imagen ruidosa que genere exactamente la imagen original cuando se proporcione el texto original o la indicación. Es una especie de técnica de enmascaramiento inverso. De esta manera, si se modifica ligeramente el texto original, la imagen editada se mantendría en su mayoría sin cambios con solo las alteraciones necesarias.
- Conoce a Baichuan-13B el modelo de lenguaje de código abierto de China para competir con OpenAI
- Herramientas de Inteligencia Artificial de Conversión de Voz a Texto principales (2023)
- El equipo de Estabilidad AI presenta FreeWilly1 y FreeWilly2 Nuevos Modelos de Lenguaje de Acceso Abierto y Gran Tamaño (LLMs)
El equipo detrás de EDICT comparte los resultados del algoritmo con la ayuda de un ejemplo. Al generar una imagen de un gato surfeando en el agua editando una imagen existente de un perro surfeando, se pierden muchos detalles e información minuciosa, como las olas, el color de la tabla, etc. Esto se debe a que, en este método, simplemente se agrega ruido a la imagen original para generar la nueva. En la técnica EDICT, se realiza una generación inversa encontrando una imagen ruidosa que generaría exactamente la imagen original. Esta imagen ruidosa luego genera la imagen real del perro surfeando con la ayuda de la leyenda textual. El ruido de la imagen generada se copia para volver a consultar el modelo con la imagen sin ruido. Seguido de esto, se realiza el ajuste en el texto simplemente reemplazando la palabra “perro” por la palabra “gato” y, finalmente, se obtiene una imagen editada comparativamente detallada de un gato surfeando. EDICT funciona simplemente en base a la idea de hacer dos copias idénticas de una imagen e ir mejorando cada una de ellas alternativamente con detalles de la otra de manera reversible.
Este nuevo enfoque sin duda parece prometedor, ya que los modelos actuales de generación de texto a imagen son inconsistentes y no hacen justicia a los detalles de la imagen original. Al invertir el proceso de generación, se puede preservar el contenido importante de la imagen. Teniendo en cuenta las crecientes innovaciones y demandas de estos modelos de generación de imágenes, EDICT parece ser una gran competencia para todos los modelos existentes.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?
- La Iniciativa ‘Encontrando Neuronas en un Pajar’ en el MIT, Harvard y la Universidad Northeastern Emplea la Exploración Escasa.
- Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión
- ¿Pueden los LLM ejecutarse de forma nativa en tu iPhone? Conoce MLC-LLM un marco abierto que permite llevar los modelos de lenguaje (LLMs) directamente a una amplia clase de plataformas con aceleración de GPU.
- Conoce a TxGNN un nuevo modelo que utiliza el aprendizaje profundo geométrico y la inteligencia artificial centrada en el ser humano para hacer predicciones sin entrenamiento sobre el uso terapéutico en una amplia gama de 17,080 enfermedades.
- Cuidado con las sombras IA y patrones oscuros en nuestra vida digital
- Cómo realizar un seguimiento y visualizar experimentos de aprendizaje automático utilizando MLflow