Meet FreeU Una nueva técnica de IA para mejorar la calidad generativa sin entrenamiento adicional ni ajuste fino

Conoce FreeU Una nueva técnica de IA que mejora la calidad generativa sin necesidad de entrenamiento adicional ni ajustes finos

Los modelos de difusión probabilística, una categoría de vanguardia de modelos generativos, se han convertido en un punto crítico en el panorama de la investigación, especialmente para tareas relacionadas con la visión por computadora. A diferencia de otras clases de modelos generativos, como el codificador automático variacional (VAE), las Redes Generativas Antagónicas (GAN) y los enfoques vector-cuantizados, los modelos de difusión introducen un nuevo paradigma generativo. Estos modelos utilizan una cadena de Markov fija para mapear el espacio latente, facilitando mapeos intrincados que capturan las complejidades estructurales latentes dentro de un conjunto de datos. Recientemente, sus impresionantes capacidades generativas, que van desde el alto nivel de detalle hasta la diversidad de los ejemplos generados, han impulsado avances innovadores en diversas aplicaciones de visión por computadora, como la síntesis de imágenes, la edición de imágenes, la traducción de imágenes a imágenes y la generación de texto a video.

Los modelos de difusión constan de dos componentes principales: el proceso de difusión y el proceso de eliminación de ruido. Durante el proceso de difusión, se incorpora progresivamente ruido gaussiano en los datos de entrada, transformándolo gradualmente en ruido gaussiano casi puro. En contraste, el proceso de eliminación de ruido tiene como objetivo recuperar los datos de entrada original de su estado ruidoso mediante una secuencia de operaciones de difusión inversa aprendidas. Por lo general, se utiliza una red U-Net para predecir la eliminación de ruido de manera iterativa en cada paso de eliminación de ruido. La investigación existente se centra predominantemente en el uso de U-Nets de difusión preentrenadas para aplicaciones posteriores, con una exploración limitada de las características internas de la U-Net de difusión.

Un estudio conjunto del S-Lab y la Universidad Tecnológica de Nanyang se aparta de la aplicación convencional de los modelos de difusión investigando la eficacia de la U-Net de difusión en el proceso de eliminación de ruido. Para obtener una comprensión más profunda del proceso de eliminación de ruido, los investigadores introducen un cambio de paradigma hacia el dominio de Fourier para observar el proceso de generación de los modelos de difusión: un área de investigación relativamente inexplorada.

La figura anterior ilustra el proceso de eliminación de ruido progresivo en la fila superior, mostrando las imágenes generadas en las iteraciones sucesivas. En contraste, las dos filas siguientes presentan la información asociada del dominio espacial de baja frecuencia y alta frecuencia después de la Transformada Inversa de Fourier, correspondiente a cada paso respectivo. Esta figura revela una modulación gradual de los componentes de baja frecuencia, indicando una tasa de cambio atenuada, mientras que los componentes de alta frecuencia muestran una dinámica más pronunciada a lo largo del proceso de eliminación de ruido. Estos hallazgos pueden explicarse de manera intuitiva: los componentes de baja frecuencia representan inherentemente la estructura y las características globales de una imagen, abarcando diseños globales y colores suaves. Las alteraciones drásticas de estos componentes generalmente son inapropiadas en los procesos de eliminación de ruido, ya que pueden remodelar fundamentalmente la esencia de la imagen. Por otro lado, los componentes de alta frecuencia capturan cambios rápidos en las imágenes, como bordes y texturas, y son muy sensibles al ruido. Los procesos de eliminación de ruido deben eliminar el ruido al tiempo que conservan estos detalles intrincados.

Teniendo en cuenta estas observaciones sobre los componentes de baja y alta frecuencia durante el proceso de eliminación de ruido, la investigación se extiende para determinar las contribuciones específicas de la arquitectura U-Net dentro del marco de difusión. En cada etapa del decodificador U-Net, se combinan características de salto de las conexiones de salto y características de columna vertebral. El estudio revela que la columna principal de la U-Net juega un papel significativo en la eliminación de ruido, mientras que las conexiones de salto introducen características de alta frecuencia en el módulo decodificador, lo que ayuda en la recuperación de información semántica detallada. Sin embargo, esta propagación de características de alta frecuencia puede debilitar involuntariamente las capacidades inherentes de eliminación de ruido de la columna vertebral durante la fase de inferencia, lo que potencialmente conduce a la generación de detalles anormales de la imagen, como se muestra en la primera fila de la Figura 1.

En vista de este descubrimiento, los investigadores proponen un nuevo enfoque denominado “FreeU”, que puede mejorar la calidad de las muestras generadas sin requerir una carga computacional adicional de entrenamiento o ajuste fino. El resumen del marco se informa a continuación.

Durante la fase de inferencia, se introducen dos factores de modulación especializados para equilibrar las contribuciones de las características de la columna vertebral principal y las conexiones de salto de la arquitectura U-Net. El primer factor, conocido como “factores de características de columna vertebral”, está diseñado para amplificar los mapas de características de la columna vertebral principal, fortaleciendo así el proceso de eliminación de ruido. Sin embargo, se observa que la inclusión de factores de escalamiento de características de columna vertebral, aunque produce mejoras significativas, ocasionalmente puede resultar en un suavizado excesivo no deseado de las texturas. Para abordar esta preocupación, se introduce el segundo factor, “factores de escalamiento de características de salto”, para mitigar el problema del suavizado excesivo de las texturas.

El marco FreeU demuestra una adaptabilidad perfecta cuando se integra con modelos de difusión existentes, incluidas aplicaciones como generación de texto a imagen y generación de texto a video. Se realiza una evaluación experimental exhaustiva de este enfoque utilizando modelos fundamentales como Stable Diffusion, DreamBooth, ReVersion, ModelScope y Rerender para comparaciones de referencia. Cuando se aplica FreeU durante la fase de inferencia, estos modelos muestran una mejora notable en la calidad de las salidas generadas. La representación visual en la ilustración a continuación proporciona evidencia de la efectividad de FreeU para mejorar significativamente tanto los detalles intrincados como la fidelidad visual general de las imágenes generadas.

Este fue el resumen de FreeU, una nueva técnica de IA que mejora la calidad de salida de modelos generativos sin entrenamiento adicional ni ajuste fino. Si estás interesado y quieres aprender más al respecto, no dudes en consultar los enlaces citados a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Esta investigación de IA presenta un nuevo enfoque para el reconocimiento de pose de objetos como predicción del próximo token'.

¿Cómo podemos abordar de forma efectiva el reconocimiento de objetos? Un equipo de investigadores de Meta AI y la Uni...

Noticias de Inteligencia Artificial

La IA puede algún día realizar milagros médicos. Por ahora, ayuda a realizar trabajos administrativos.

Los médicos dicen que el mejor uso para la inteligencia artificial generativa en el cuidado de la salud es aliviar la...

Inteligencia Artificial

Mejora Amazon Lex con LLMs y mejora la experiencia de las preguntas frecuentes utilizando la ingestión de URL

En el mundo digital de hoy, la mayoría de los consumidores prefieren encontrar respuestas a sus preguntas de servicio...