¿Ocupado? Esta es tu guía rápida para abrir la caja negra de los modelos de difusión

Guía rápida para abrir la caja negra de los modelos de difusión

Decodificar Difusión Estable: Entrenar, Generar Nuevas Imágenes y Controlar Usando un Contexto Dado

Indicación: “Un dibujo a pastel de un gato gracioso durmiendo en una posición extraña” [Imagen por el Autor — Generada usando DALL-E]

Si abriste mi artículo, probablemente hayas utilizado un modelo de texto a imagen de servicios como DALL-E, Midjourney o Stability AI.

Bueno, todos ellos se basan en modelos de difusión.

Incluso si deseas tratarlos como una caja negra mágica, tener una intuición sobre cómo funcionan internamente te ayudará a generar un mejor arte.

Este artículo tiene como objetivo darte una intuición sobre cómo los modelos de difusión generan nuevas imágenes, se entrenan con un nuevo conjunto de datos y se controlan en base a un contexto dado (por ejemplo, texto, otra imagen, categorías, etc.).

No entraremos en demasiados detalles técnicos, sino que nos enfocaremos conceptualmente en los componentes principales que hacen que los modelos de difusión funcionen.

Tabla de Contenidos

Obtener una Intuición de Cómo Funcionan los Modelos de Difusión
Cómo los Modelos de Difusión Generan Nuevas Imágenes
Una Guía Rápida sobre Cómo Entrenar Modelos de Difusión
Controlar Modelos de Difusión Estable con un Contexto Dado

#1. Obtener una Intuición de Cómo Funcionan los Modelos de Difusión

Utilizaremos un conjunto de datos con gatos como ejemplo.

Entonces, digamos que queremos entrenar un modelo de difusión estable para generar nuevos gatos.

Luego, para:

Generar el conjunto de datos — agregar ruido gaussiano

Tomamos cada imagen del conjunto de datos y gradualmente les agregamos ruido gaussiano.

Ahora, tenemos múltiples imágenes que contienen varios niveles de ruido para cada imagen inicial de gato.

Entrenar el modelo — eliminar el ruido

El trabajo real del modelo es tomar una imagen ruidosa y eliminar el ruido de ella.

Entonces, al entrenar el modelo de difusión:- tomará una imagen ruidosa como entrada- intentará eliminar el ruido- se calcula la pérdida entre la imagen “limpiada” y la imagen original sin ruido

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

¿Ocupado? Esta es tu guía rápida para abrir la caja negra de los modelos de difusión

Decodificar Difusión Estable: Entrenar, Generar Nuevas Imágenes y Controlar Usando un Contexto Dado

Tabla de Contenidos

#1. Obtener una Intuición de Cómo Funcionan los Modelos de Difusión

Was this article helpful?

Investigadores del MIT combinan el aprendizaje profundo y la física para corregir las imágenes de resonancia magnética afectadas por el movimiento

Construye características de aprendizaje automático a gran escala con Amazon SageMaker Feature Store utilizando datos de Amazon Redshift

Inteligencia Artificial

Investigadores de la Universidad de Cambridge presentan un conjunto de datos de 50,000 imágenes sintéticas y fotorealistas de pies, junto con una novedosa biblioteca de IA para pies.

¿Pueden los modelos de lenguaje grandes realmente hacer matemáticas? Esta investigación de inteligencia artificial AI presenta MathGLM un modelo robusto para resolver problemas matemáticos sin una calculadora.

LightOn AI lanza Alfred-40B-0723 un nuevo modelo de lenguaje de código abierto (LLM) basado en Falcon-40B.

Revelando Redes de Flujo Bayesiano Una Nueva Frontera en la Modelización Generativa

Anguila robot revela cómo los peces nadan tan eficientemente

DreamBooth Difusión estable para imágenes personalizadas