Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA que personaliza los modelos de difusión con retroalimentación iterativa
Ajustando la Tela de la IA Generativa FABRIC es un enfoque de IA personalizado para modelos de difusión con retroalimentación iterativa.
La inteligencia artificial generativa es un término con el que todos estamos familiarizados en la actualidad. Han avanzado mucho en los últimos años y se han convertido en una herramienta clave en múltiples aplicaciones.
La estrella del espectáculo de la inteligencia artificial generativa son los modelos de difusión. Han surgido como una potente clase de modelos generativos, revolucionando la síntesis de imágenes y tareas relacionadas. Estos modelos han demostrado un rendimiento notable en la generación de imágenes de alta calidad y variadas. A diferencia de los modelos generativos tradicionales como GANs y VAEs, los modelos de difusión funcionan refinando iterativamente una fuente de ruido, lo que permite una generación de imágenes estable y coherente.
Los modelos de difusión han ganado una significativa tracción debido a su capacidad para generar imágenes de alta fidelidad con una estabilidad mejorada y una reducción del colapso de modos durante el entrenamiento. Esto ha llevado a su amplia adopción y aplicación en diversos dominios, incluyendo la síntesis de imágenes, el inpainting y la transferencia de estilo.
- Mejorando la búsqueda de productos de comercio electrónico utilizando LLMs
- Aprendizaje automático para regresión con datos desequilibrados
- Matemáticas en el Mundo Real Pruebas, Simulaciones y Más
Sin embargo, no son perfectos. A pesar de sus impresionantes capacidades, uno de los desafíos de los modelos de difusión radica en dirigir efectivamente el modelo hacia salidas deseadas específicas basadas en descripciones textuales. Por lo general, resulta molesto describir con precisión las preferencias a través de indicaciones de texto, a veces no son suficientes o el modelo insiste en ignorarlas. Por lo tanto, generalmente es necesario refinar la imagen generada para hacerla utilizable.
Pero tú sabes lo que querías que el modelo dibujara. Entonces, en teoría, eres la mejor persona para evaluar la calidad de la imagen generada; qué tan cerca se parece a tu imaginación. ¿Qué pasaría si pudiéramos integrar esta retroalimentación en el proceso de generación de imágenes para que el modelo pudiera entender lo que queremos ver? Es hora de conocer a FABRIC.
FABRIC (Feedback via Attention-Based Reference Image Conditioning) es un enfoque novedoso que permite la integración de retroalimentación iterativa en el proceso generativo de modelos de difusión.
FABRIC utiliza imágenes de retroalimentación positivas y negativas recolectadas de generaciones anteriores o de entrada humana. Esto le permite aprovechar el condicionamiento de la imagen de referencia para refinar los resultados futuros. Este flujo de trabajo iterativo facilita el ajuste fino de las imágenes generadas en función de las preferencias del usuario, proporcionando un proceso de generación de texto a imagen más controlable e interactivo.
FABRIC se inspira en ControlNet, que introdujo la capacidad de generar nuevas imágenes similares a imágenes de referencia. FABRIC aprovecha el módulo de autoatención en la U-Net, lo que le permite “prestar atención” a otros píxeles en la imagen e inyectar información adicional de una imagen de referencia. Las claves y los valores para la inyección de referencia se calculan al pasar la imagen de referencia ruidosa a través de la U-Net de Difusión Estable. Estas claves y valores se almacenan en las capas de autoatención de la U-Net, lo que permite que el proceso de eliminación de ruido preste atención a la imagen de referencia e incorpore información semántica.
Además, FABRIC se extiende para incorporar retroalimentación positiva y negativa en varias rondas, donde se realizan pasadas separadas de U-Net para cada imagen que gusta y disgusta, y las puntuaciones de atención se ponderan nuevamente en función de la retroalimentación. El proceso de retroalimentación se puede programar según los pasos de eliminación de ruido, lo que permite el refinamiento iterativo de las imágenes generadas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo diseñar una búsqueda empresarial basada en IA en AWS
- Cuánto tiempo deberías dedicar a la preparación de la entrevista de Ciencia de Datos
- Automatiza el crecimiento de tu cuenta de Twitter con ChatGPT y Zapier
- Cómo acelerar las consultas SQL utilizando índices [Edición Python]
- Controversia de Disney en Hollywood ¡Interviene la IA, los escritores y actores se retiran!
- RBI adopta la IA conversacional y los pagos sin conexión utilizando UPI
- OpenAI presenta GPTBot un rastreador web diseñado para extraer datos de toda la Internet automáticamente