Conoce DreamSync un nuevo marco de inteligencia artificial para mejorar la síntesis de texto a imagen (T2I) con comentarios de modelos de comprensión de imagen

Descubre DreamSync, un nuevo marco de inteligencia artificial que potencia la síntesis de texto a imagen (T2I) con el respaldo de modelos de comprensión de imagen

Investigadores de la Universidad del Sur de California, la Universidad de Washington, la Universidad Bar-Ilan y Google Research presentaron DreamSync, que aborda el problema de mejorar la alineación y el atractivo estético en los modelos de texto a imagen (T2I) basados en la difusión sin necesidad de anotaciones humanas, modificaciones en la arquitectura del modelo o aprendizaje por refuerzo. Esto se logra generando imágenes candidatas, evaluándolas mediante modelos de Preguntas y Respuestas Visuales (VQA) y afinando el modelo de texto a imagen.

Estudios anteriores propusieron el uso de modelos de VQA, ejemplificados por TIFA, para evaluar la generación de T2I. Con 4K estímulos y 25K preguntas, TIFA facilita la evaluación en 12 categorías. SeeTrue y técnicas de entrenamiento como RLHF y adaptadores de entrenamiento abordan la alineación de T2I. Técnicas sin entrenamiento, como SynGen y StructuralDiffusion, ajustan la inferencia para la alineación.

DreamSync aborda desafíos en los modelos de T2I, mejorando la fidelidad a las intenciones del usuario y el atractivo estético sin depender de arquitecturas específicas o datos etiquetados. Introduce un marco agnóstico de modelo que utiliza modelos de visión-lenguaje (VLM) para identificar discrepancias entre las imágenes generadas y el texto de entrada. El método implica desarrollar múltiples imágenes candidatas, evaluarlas con VLM y afinar el modelo de T2I. DreamSync ofrece una mejora de la alineación de imágenes, superando a los métodos de referencia, y puede mejorar varias características de las imágenes, ampliando su aplicabilidad más allá de las mejoras en la alineación.

DreamSync emplea un marco agnóstico de modelo para alinear la generación de T2I con comentarios de VLM. El proceso implica generar múltiples imágenes candidatas a partir de un estímulo y evaluarlas en términos de fidelidad al texto y estética de la imagen utilizando dos VLM dedicados. La mejor imagen seleccionada, determinada por la retroalimentación de VLM, se utiliza para afinar el modelo de T2I, repitiendo la iteración hasta la convergencia. También introduce el enfoque iterativo de arranque, utilizando VLM como modelos de profesor para etiquetar datos no etiquetados para el entrenamiento del modelo de T2I.

DreamSync mejora los modelos de T2I SDXL y SD v1.4, con tres iteraciones de SDXL que resultan en una mejora de 1.7 y 3.7 puntos en la fidelidad en TIFA. La estética visual también mejoró en 3.4 puntos. Al aplicar DreamSync a SD v1.4, se obtiene una mejora de 1.0 punto en la fidelidad y un aumento absoluto de 1.7 puntos en TIFA, con una mejora de estética de 0.3 puntos. En un estudio comparativo, DreamSync supera a SDXL en la alineación, produciendo imágenes con componentes más relevantes y 3.4 respuestas correctas adicionales. Logra una fidelidad textual superior sin comprometer la apariencia visual en los puntos de referencia TIFA y DSG, demostrando una mejora gradual a lo largo de las iteraciones.

En conclusión, DreamSync es un marco versátil evaluado en puntos de referencia desafiantes de T2I, mostrando mejoras significativas en la alineación y atractivo visual tanto en configuraciones dentro de la distribución como fuera de ella. El marco incorpora una doble retroalimentación de los modelos de visión-lenguaje y ha sido validado mediante calificaciones humanas y un modelo de predicción de preferencias.

Las mejoras futuras para DreamSync incluyen el anclaje de la retroalimentación con anotaciones detalladas como cuadros delimitadores para identificar desalineaciones. Adaptar los estímulos en cada iteración tiene como objetivo apuntar a mejoras específicas en la síntesis de texto a imagen. La exploración de la estructura lingüística y los mapas de atención tiene como objetivo mejorar la vinculación de atributos y objetos. El entrenamiento de modelos de recompensa con retroalimentación humana puede alinear aún más las imágenes generadas con la intención del usuario. Extender la aplicación de DreamSync a otras arquitecturas de modelo, evaluar el rendimiento y realizar estudios adicionales en diferentes configuraciones son áreas de investigación en curso.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Capturando Carbono

¿Pueden las tecnologías de captura de carbono aliviar el impacto del cambio climático?

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

Los modelos de lenguaje grandes (LLM) están demostrando cada vez más su valor. La incorporación de imágenes en los LL...

Inteligencia Artificial

Cómo Patsnap utilizó la inferencia de GPT-2 en Amazon SageMaker con baja latencia y costo

Esta publicación de blog fue coescrita, e incluye una introducción, por Zilong Bai, ingeniero principal de procesamie...

Inteligencia Artificial

Las ventas de automóviles nuevos despegan a medida que se alivia la escasez de chips.

General Motors, Toyota y otros fabricantes de automóviles vendieron más camiones y vehículos utilitarios deportivos a...

Inteligencia Artificial

Combatir la suplantación de identidad por la IA

Encontrar formas de determinar si un mensaje de voz es real o generado por una inteligencia artificial.