Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa

Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA personalizado para modelos de difusión con retroalimentación iterativa.

La inteligencia artificial generativa es un término con el que todos estamos familiarizados en la actualidad. Han avanzado mucho en los últimos años y se han convertido en una herramienta clave en múltiples aplicaciones.

La estrella del espectáculo de la inteligencia artificial generativa son los modelos de difusión. Han surgido como una potente clase de modelos generativos, revolucionando la síntesis de imágenes y tareas relacionadas. Estos modelos han demostrado un rendimiento notable en la generación de imágenes de alta calidad y variadas. A diferencia de los modelos generativos tradicionales como GANs y VAEs, los modelos de difusión funcionan refinando iterativamente una fuente de ruido, lo que permite una generación de imágenes estable y coherente.

Los modelos de difusión han ganado una significativa tracción debido a su capacidad para generar imágenes de alta fidelidad con una estabilidad mejorada y una reducción del colapso de modos durante el entrenamiento. Esto ha llevado a su amplia adopción y aplicación en diversos dominios, incluyendo la síntesis de imágenes, el inpainting y la transferencia de estilo.

Sin embargo, no son perfectos. A pesar de sus impresionantes capacidades, uno de los desafíos de los modelos de difusión radica en dirigir efectivamente el modelo hacia salidas deseadas específicas basadas en descripciones textuales. Por lo general, resulta molesto describir con precisión las preferencias a través de indicaciones de texto, a veces no son suficientes o el modelo insiste en ignorarlas. Por lo tanto, generalmente es necesario refinar la imagen generada para hacerla utilizable.

Pero tú sabes lo que querías que el modelo dibujara. Entonces, en teoría, eres la mejor persona para evaluar la calidad de la imagen generada; qué tan cerca se parece a tu imaginación. ¿Qué pasaría si pudiéramos integrar esta retroalimentación en el proceso de generación de imágenes para que el modelo pudiera entender lo que queremos ver? Es hora de conocer a FABRIC.

FABRIC (Feedback via Attention-Based Reference Image Conditioning) es un enfoque novedoso que permite la integración de retroalimentación iterativa en el proceso generativo de modelos de difusión.

FABRIC funciona basado en la retroalimentación del usuario. Fuente: https://arxiv.org/pdf/2307.10159.pdf

FABRIC utiliza imágenes de retroalimentación positivas y negativas recolectadas de generaciones anteriores o de entrada humana. Esto le permite aprovechar el condicionamiento de la imagen de referencia para refinar los resultados futuros. Este flujo de trabajo iterativo facilita el ajuste fino de las imágenes generadas en función de las preferencias del usuario, proporcionando un proceso de generación de texto a imagen más controlable e interactivo.

FABRIC se inspira en ControlNet, que introdujo la capacidad de generar nuevas imágenes similares a imágenes de referencia. FABRIC aprovecha el módulo de autoatención en la U-Net, lo que le permite “prestar atención” a otros píxeles en la imagen e inyectar información adicional de una imagen de referencia. Las claves y los valores para la inyección de referencia se calculan al pasar la imagen de referencia ruidosa a través de la U-Net de Difusión Estable. Estas claves y valores se almacenan en las capas de autoatención de la U-Net, lo que permite que el proceso de eliminación de ruido preste atención a la imagen de referencia e incorpore información semántica.

Visión general de FABRIC. Fuente: https://arxiv.org/pdf/2307.10159.pdf

Además, FABRIC se extiende para incorporar retroalimentación positiva y negativa en varias rondas, donde se realizan pasadas separadas de U-Net para cada imagen que gusta y disgusta, y las puntuaciones de atención se ponderan nuevamente en función de la retroalimentación. El proceso de retroalimentación se puede programar según los pasos de eliminación de ruido, lo que permite el refinamiento iterativo de las imágenes generadas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Aprendizaje Automático

Entrena un Modelo de Lenguaje Grande en una sola GPU de Amazon SageMaker con Hugging Face y LoRA.

Esta publicación está coescrita con Philipp Schmid de Hugging Face. Todos hemos escuchado sobre el progreso en el cam...

Inteligencia Artificial

CEO de OpenAI, Sam Altman Empleos en riesgo a medida que la IA demuestra su poderío

El CEO de OpenAI, Sam Altman, ha expresado públicamente sus preocupaciones sobre los posibles peligros de la intelige...

Ciencia de Datos

¡Di una vez! Repetir palabras no ayuda a la IA.

Los Modelos de Lenguaje Grandes (LLMs) han demostrado sus capacidades y han causado furor en el mundo. Cada gran empr...

Inteligencia Artificial

Este artículo de Alibaba Group presenta FederatedScope-LLM un paquete integral para el ajuste fino de LLMs en el aprendizaje federado

Hoy en día, plataformas como Hugging Face han facilitado el acceso y la utilización de Modelos de Lenguaje de Gran Ta...

Inteligencia Artificial

Los efectos de ChatGPT en las escuelas y por qué está siendo prohibido.

Muchas escuelas están prohibiendo ChatGPT debido a preocupaciones de plagio, precisión y privacidad. Sin embargo, el ...

Inteligencia Artificial

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nue...