¿Ocupado? Esta es tu guía rápida para abrir la caja negra de los modelos de difusión

Guía rápida para abrir la caja negra de los modelos de difusión

Decodificar Difusión Estable: Entrenar, Generar Nuevas Imágenes y Controlar Usando un Contexto Dado

Indicación: “Un dibujo a pastel de un gato gracioso durmiendo en una posición extraña” [Imagen por el Autor — Generada usando DALL-E]

Si abriste mi artículo, probablemente hayas utilizado un modelo de texto a imagen de servicios como DALL-E, Midjourney o Stability AI.

Bueno, todos ellos se basan en modelos de difusión.

Incluso si deseas tratarlos como una caja negra mágica, tener una intuición sobre cómo funcionan internamente te ayudará a generar un mejor arte.

Este artículo tiene como objetivo darte una intuición sobre cómo los modelos de difusión generan nuevas imágenes, se entrenan con un nuevo conjunto de datos y se controlan en base a un contexto dado (por ejemplo, texto, otra imagen, categorías, etc.).

No entraremos en demasiados detalles técnicos, sino que nos enfocaremos conceptualmente en los componentes principales que hacen que los modelos de difusión funcionen.

Tabla de Contenidos

  1. Obtener una Intuición de Cómo Funcionan los Modelos de Difusión
  2. Cómo los Modelos de Difusión Generan Nuevas Imágenes
  3. Una Guía Rápida sobre Cómo Entrenar Modelos de Difusión
  4. Controlar Modelos de Difusión Estable con un Contexto Dado

#1. Obtener una Intuición de Cómo Funcionan los Modelos de Difusión

Utilizaremos un conjunto de datos con gatos como ejemplo.

Entonces, digamos que queremos entrenar un modelo de difusión estable para generar nuevos gatos.

Luego, para:

Generar el conjunto de datos — agregar ruido gaussiano

Tomamos cada imagen del conjunto de datos y gradualmente les agregamos ruido gaussiano.

Ahora, tenemos múltiples imágenes que contienen varios niveles de ruido para cada imagen inicial de gato.

Entrenar el modelo — eliminar el ruido

El trabajo real del modelo es tomar una imagen ruidosa y eliminar el ruido de ella.

Entonces, al entrenar el modelo de difusión:- tomará una imagen ruidosa como entrada- intentará eliminar el ruido- se calcula la pérdida entre la imagen “limpiada” y la imagen original sin ruido

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

LightOn AI lanza Alfred-40B-0723 un nuevo modelo de lenguaje de código abierto (LLM) basado en Falcon-40B.

En un movimiento innovador, LightOn anunció con orgullo el lanzamiento de Alfred-40B-0723, un innovador Modelo de Len...

Inteligencia Artificial

Revelando Redes de Flujo Bayesiano Una Nueva Frontera en la Modelización Generativa

La Modelización Generativa se encuentra dentro del aprendizaje automático no supervisado, donde el modelo aprende a d...

Inteligencia Artificial

Anguila robot revela cómo los peces nadan tan eficientemente

Investigadores del Instituto Federal de Tecnología de Lausana, Suiza, han desarrollado un robot impermeable parecido ...

Inteligencia Artificial

DreamBooth Difusión estable para imágenes personalizadas

Introducción Bienvenido al mundo de las técnicas de Difusión Estable para crear imágenes personalizadas, donde la cre...