Conoce DenseDiffusion una técnica de IA sin entrenamiento para abordar subtítulos densos y manipulación de diseño en la generación de texto a imagen

DenseDiffusion una técnica de IA sin entrenamiento para abordar subtítulos densos y manipulación de diseño en la generación de texto a imagen.

Los avances recientes en los modelos de texto a imagen han llevado a sistemas sofisticados capaces de generar imágenes de alta calidad basadas en descripciones breves de escenas. Sin embargo, estos modelos encuentran dificultades cuando se enfrentan a subtítulos complicados, lo que a menudo resulta en la omisión o mezcla de atributos visuales relacionados con diferentes objetos. El término “densa” en este contexto se basa en el concepto de densidad de subtítulos, donde se utilizan frases individuales para describir regiones específicas dentro de una imagen. Además, los usuarios enfrentan desafíos para dictar con precisión la disposición de los elementos dentro de las imágenes generadas utilizando solo indicaciones textuales.

Varios estudios recientes han propuesto soluciones que otorgan a los usuarios un control espacial mediante el entrenamiento o refinamiento de modelos de texto a imagen condicionados a diseños. Mientras que enfoques específicos como “Make-aScene” y “Modelos de Difusión Latente” construyen modelos desde cero con condiciones tanto de texto como de diseño, otros métodos concurrentes como “SpaText” y “ControlNet” introducen controles espaciales complementarios a modelos de texto a imagen existentes mediante el ajuste fino. Desafortunadamente, el entrenamiento o ajuste fino de un modelo puede ser computacionalmente intensivo. Además, el modelo requiere volver a entrenar para cada condición de usuario novedosa, dominio o modelo de texto a imagen base.

Basado en los problemas mencionados anteriormente, se propone una nueva técnica sin entrenamiento llamada DenseDiffusion para acomodar subtítulos densos y proporcionar manipulación de diseño.

Antes de presentar la idea principal, permítanme resumir brevemente cómo funcionan los modelos de difusión. Los modelos de difusión generan imágenes a través de pasos secuenciales de eliminación de ruido, comenzando desde ruido aleatorio. Las redes de predicción de ruido estiman el ruido agregado e intentan renderizar una imagen más nítida en cada paso. Los modelos recientes reducen el número de pasos de eliminación de ruido para obtener resultados más rápidos sin comprometer significativamente la imagen generada.

Dos bloques esenciales en los modelos de difusión de última generación son las capas de autoatención y de atención cruzada.

Dentro de una capa de autoatención, las características intermedias funcionan adicionalmente como características contextuales. Esto permite la creación de estructuras globalmente consistentes estableciendo conexiones entre los tokens de imagen que abarcan diversas áreas. Al mismo tiempo, una capa de atención cruzada se adapta en función de las características textuales obtenidas del título de texto de entrada, empleando un codificador de texto CLIP para la codificación.

Volviendo atrás, la idea principal detrás de DenseDiffusion es el proceso de modulación de atención revisado, que se presenta en la figura a continuación.

Inicialmente, se examinan las características intermedias de un modelo de difusión de texto a imagen pre-entrenado para revelar la correlación sustancial entre el diseño de la imagen generada y los mapas de autoatención y atención cruzada. Basándose en esta idea, los mapas de atención intermedia se ajustan dinámicamente en función de las condiciones de diseño. Además, el enfoque implica tener en cuenta el rango original de puntuación de atención y ajustar fino la extensión de modulación en función del área de cada segmento. En el trabajo presentado, los autores demuestran la capacidad de DenseDiffusion para mejorar el rendimiento del modelo “Stable Diffusion” y superar a múltiples modelos de difusión composicionales en términos de subtítulos densos, condiciones de texto y diseño, y calidad de imagen.

Se muestran a continuación los resultados de muestra seleccionados del estudio en la imagen a continuación. Estas imágenes proporcionan una visión comparativa entre DenseDiffusion y enfoques de última generación.

Esto fue un resumen de DenseDiffusion, una nueva técnica de entrenamiento de IA sin entrenamiento para acomodar subtítulos densos y proporcionar manipulación de diseño en la síntesis de texto a imagen.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Imágenes detalladas desde el espacio ofrecen una imagen más clara de los efectos de la sequía en las plantas.

Los investigadores de J-WAFS están utilizando observaciones de teledetección para construir sistemas de alta resoluci...

Inteligencia Artificial

Investigadores de Microsoft proponen PIT (Transformación Permutación Invariante) un compilador de aprendizaje profundo para la escasez dinámica.

Recientemente, el aprendizaje profundo se ha caracterizado por un aumento en la investigación orientada a optimizar m...

Inteligencia Artificial

Hitos alcanzados en la nueva arquitectura de la computación cuántica

Los científicos han extendido el tiempo de coherencia para una clase única de bit cuántico (qubit) a 0.1 milisegundos...

Ciencia de Datos

Mejorando la inferencia de PyTorch en CPU desde la cuantificación posterior al entrenamiento hasta el multihilo.

Acelere el tiempo de inferencia en CPU con la selección de modelos, la cuantización posterior al entrenamiento con ON...

Inteligencia Artificial

Mejora Amazon Lex con características de preguntas frecuentes conversacionales utilizando LLMs

Amazon Lex es un servicio que te permite construir de manera rápida y sencilla bots conversacionales (chatbots), agen...