Eliminación y destilación arquitectural Un camino hacia la compresión eficiente en modelos de difusión texto-imagen en IA.

Eliminación y destilación arquitectural para compresión eficiente en modelos de difusión texto-imagen en IA.

Los modelos de difusión de texto a imagen representan un enfoque innovador para generar imágenes a partir de indicaciones textuales. Aprovechan el poder del aprendizaje profundo y la modelización probabilística para capturar las sutiles relaciones entre el lenguaje y los conceptos visuales. Al condicionar un modelo generativo en descripciones textuales, estos modelos aprenden a sintetizar imágenes realistas que representan fielmente la entrada dada.

En el corazón de los modelos de difusión de texto a imagen se encuentra el concepto de difusión, un proceso inspirado en la física estadística. La idea clave detrás de la difusión es refinar iterativamente una imagen inicialmente ruidosa, haciéndola gradualmente más realista y coherente al seguir los gradientes de un modelo de difusión aprendido. Al extender este principio a la síntesis de texto a imagen, los investigadores han logrado resultados notables, permitiendo la creación de imágenes detalladas y de alta resolución a partir de indicaciones de texto con una fidelidad y diversidad impresionantes.

Sin embargo, entrenar tales modelos plantea desafíos significativos. Generar imágenes de alta calidad a partir de descripciones textuales requiere navegar por un espacio vasto y complejo de posibles interpretaciones visuales, lo que dificulta garantizar la estabilidad durante el proceso de aprendizaje. La difusión estable estabiliza el proceso de entrenamiento guiando al modelo para capturar la semántica subyacente del texto y generar imágenes coherentes sin sacrificar la diversidad. Esto resulta en una generación de imágenes más fiable y controlada, empoderando a artistas, diseñadores y desarrolladores para producir contenido visual cautivador con mayor precisión y control.

Una gran desventaja de la difusión estable es que su extensa arquitectura requiere recursos computacionales significativos y resulta en un tiempo de inferencia prolongado. Para abordar esta preocupación, se han propuesto varios métodos para mejorar la eficiencia de los modelos de difusión estable (SDMs, por sus siglas en inglés). Algunos métodos intentaron reducir el número de pasos de eliminación de ruido mediante la destilación de un modelo de difusión pre-entrenado, que se utiliza para guiar un modelo similar con menos pasos de muestreo. Otros enfoques emplearon técnicas de cuantificación posterior al entrenamiento para reducir la precisión de los pesos y las activaciones del modelo. El resultado es un tamaño de modelo reducido, requisitos de memoria más bajos y una mayor eficiencia computacional.

Sin embargo, la reducción alcanzable por estas técnicas no es sustancial. Por lo tanto, deben explorarse otras soluciones, como la eliminación de elementos arquitectónicos en modelos de difusión.

El trabajo presentado en este artículo refleja esta motivación y revela el potencial significativo de las técnicas de compresión arquitectónica clásica para lograr modelos de difusión más pequeños y más rápidos. El pipeline de pre-entrenamiento se muestra en la figura debajo.

https://arxiv.org/abs/2305.15798

El procedimiento elimina múltiples bloques residuales y de atención de la arquitectura U-Net de un modelo de difusión estable (SDM) y pre-entrena el modelo compacto (o estudiante) utilizando la destilación de conocimiento a nivel de características (KD, por sus siglas en inglés).

Algunos conocimientos interesantes sobre la eliminación de arquitectura incluyen etapas descendentes, ascendentes y medias.

Para las etapas descendentes y ascendentes, este enfoque reduce el número de bloques residuales y de atención cruzada innecesarios en la arquitectura U-Net mientras se preserva el procesamiento de información espacial crucial. Se alinea con el método DistilBERT y permite el uso de pesos pre-entrenados para la inicialización, lo que resulta en un modelo más eficiente y compacto.

Sorprendentemente, la eliminación de la etapa media de la U-Net original tiene poco impacto en la calidad de generación mientras reduce significativamente los parámetros. Este equilibrio entre la eficiencia computacional y la calidad de generación lo convierte en una opción viable para la optimización.

Según los autores, cada estudiante logra una habilidad sobresaliente en la síntesis de texto a imagen de alta calidad después de destilar el conocimiento del maestro. En comparación con la difusión estable, con 1.04 mil millones de parámetros y una puntuación FID de 13.05, el modelo BK-SDM-Base, con 0.76 mil millones de parámetros, logra una puntuación FID de 15.76. De manera similar, el modelo BK-SDM-Small, con 0.66 mil millones de parámetros, logra una puntuación FID de 16.98, y el modelo BK-SDM-Tiny, con 0.50 mil millones de parámetros, logra una puntuación FID de 17.12.

Se informan aquí algunos resultados para comparar visualmente los enfoques propuestos y los enfoques del estado del arte.

https://arxiv.org/abs/2305.15798

Este resumen de una nueva técnica de compresión para modelos de difusión de Texto-a-Imagen (T2I) se centra en la eliminación inteligente de elementos arquitectónicos y estrategias de destilación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Integración de datos multimodales Cómo la inteligencia artificial está revolucionando la atención del cáncer

Recientemente leí este artículo (enlace) sobre la integración de datos multimodales para la oncología con inteligenci...

Inteligencia Artificial

Construyendo un Motor de Recomendación de Productos con Apache Cassandra y Apache Pulsar

Cómo un contratista hipotético aceleró la IA con Apache Pulsar y Apache Cassandra. Este artículo detalla aspectos imp...

Inteligencia Artificial

Together AI presenta Llama-2-7B-32K-Instruct un avance en el procesamiento del lenguaje con contexto extendido

Ha surgido un desafío multifacético en el amplio campo del procesamiento del lenguaje natural: la capacidad de compre...

Inteligencia Artificial

Sam Altman despedido como CEO de OpenAI

En un giro sorprendente de los acontecimientos, OpenAI, el principal laboratorio de investigación en inteligencia art...

Inteligencia Artificial

Iniciando en Autogen Explorando los fundamentos de un marco de trabajo multiagente

Introducción Embárcate en un emocionante viaje hacia el futuro del desarrollo de software con ‘Lanzándose en Au...

Inteligencia Artificial

Por qué importa el Hype Pensar de manera práctica sobre la IA

ELIZA era un chatbot temprano que compartía algunas similitudes con ChatGPT. ¿Por qué importa esta emoción? Bueno, cu...