¿Ocupado? Esta es tu guía rápida para abrir la caja negra de los modelos de difusión
Guía rápida para abrir la caja negra de los modelos de difusión
Decodificar Difusión Estable: Entrenar, Generar Nuevas Imágenes y Controlar Usando un Contexto Dado
Si abriste mi artículo, probablemente hayas utilizado un modelo de texto a imagen de servicios como DALL-E, Midjourney o Stability AI.
Bueno, todos ellos se basan en modelos de difusión.
Incluso si deseas tratarlos como una caja negra mágica, tener una intuición sobre cómo funcionan internamente te ayudará a generar un mejor arte.
Este artículo tiene como objetivo darte una intuición sobre cómo los modelos de difusión generan nuevas imágenes, se entrenan con un nuevo conjunto de datos y se controlan en base a un contexto dado (por ejemplo, texto, otra imagen, categorías, etc.).
- Investigadores del MIT combinan el aprendizaje profundo y la física para corregir las imágenes de resonancia magnética afectadas por el movimiento
- La prueba está en la nube GeForce NOW anuncia los resultados del desafío definitivo de KovaaK’s
- La Associated Press revela pautas de IA para periodistas
No entraremos en demasiados detalles técnicos, sino que nos enfocaremos conceptualmente en los componentes principales que hacen que los modelos de difusión funcionen.
Tabla de Contenidos
- Obtener una Intuición de Cómo Funcionan los Modelos de Difusión
- Cómo los Modelos de Difusión Generan Nuevas Imágenes
- Una Guía Rápida sobre Cómo Entrenar Modelos de Difusión
- Controlar Modelos de Difusión Estable con un Contexto Dado
#1. Obtener una Intuición de Cómo Funcionan los Modelos de Difusión
Utilizaremos un conjunto de datos con gatos como ejemplo.
Entonces, digamos que queremos entrenar un modelo de difusión estable para generar nuevos gatos.
Luego, para:
Generar el conjunto de datos — agregar ruido gaussiano
Tomamos cada imagen del conjunto de datos y gradualmente les agregamos ruido gaussiano.
Ahora, tenemos múltiples imágenes que contienen varios niveles de ruido para cada imagen inicial de gato.
Entrenar el modelo — eliminar el ruido
El trabajo real del modelo es tomar una imagen ruidosa y eliminar el ruido de ella.
Entonces, al entrenar el modelo de difusión:- tomará una imagen ruidosa como entrada- intentará eliminar el ruido- se calcula la pérdida entre la imagen “limpiada” y la imagen original sin ruido
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Detección de anomalías temporales del mundo real a través del aprendizaje automático supervisado y la teoría de conjuntos
- Navegando por los formatos de datos con Pandas para principiantes
- Esta investigación de IA de UCLA indica que los grandes modelos de lenguaje (como GPT-3) han adquirido la capacidad emergente de encontrar soluciones sin guía para una amplia gama de problemas de analogía.
- Mejorando los Pipelines de Procesamiento del Lenguaje Natural con spaCy
- Investigadores de IA de Salesforce presentan la evolución de los agentes autónomos mejorados con LLM y la innovadora estrategia BOLAA
- ¿NP-Qué? Tipos de Complejidad de Problemas de Optimización Explicados
- ¿Qué es Azure Data Factory (ADF)? Características y Aplicaciones