Investigadores de CMU y Google DeepMind presentan AlignProp un enfoque de IA basado en retropropagación directa para afinar los modelos de difusión de texto a imagen para una función de recompensa deseada.

Investigadores de CMU y Google DeepMind presentan AlignProp una nueva aproximación de IA para perfeccionar los modelos de traducción de texto a imagen y alcanzar una función de recompensa deseada.

Los modelos probabilísticos de difusión se han convertido en la norma establecida para la generación de modelos en dominios continuos. A la vanguardia de los modelos de difusión de texto a imagen se encuentra DALLE. Estos modelos han ganado protagonismo debido a su capacidad para generar imágenes mediante el entrenamiento en conjuntos de datos a gran escala en la web. El documento analiza la reciente aparición de modelos de difusión de texto a imagen en la vanguardia de la generación de imágenes. Estos modelos han sido entrenados en conjuntos de datos de texto a imagen no supervisados o débilmente supervisados a gran escala. Sin embargo, debido a su naturaleza no supervisada, controlar su comportamiento en tareas posteriores como la optimización de la calidad de imagen percibida por los humanos, la alineación de imagen y texto o la generación ética de imágenes es un desafío complicado.

Investigaciones recientes han intentado afinar los modelos de difusión utilizando técnicas de aprendizaje por refuerzo, pero este enfoque es conocido por su alta varianza en la estimación de gradientes. En respuesta, el documento introduce “AlignProp”, un método que alinea los modelos de difusión con funciones de recompensa posteriores mediante la retropropagación de extremo a extremo del gradiente de recompensa durante el proceso de eliminación de ruido.

El enfoque innovador de AlignProp mitiga los altos requisitos de memoria que normalmente se asociarían con la retropropagación a través de los modernos modelos de texto a imagen. Lo logra ajustando módulos de peso de adaptador de rango bajo e implementando la comprobación de gradientes.

El documento evalúa el rendimiento de AlignProp en la afinación de modelos de difusión para diversos objetivos, incluida la alineación semántica imagen-texto, la estética, la compresibilidad de imagen y la controlabilidad del número de objetos en las imágenes generadas, así como combinaciones de estos objetivos. Los resultados demuestran que AlignProp supera a los métodos alternativos al lograr recompensas más altas en menos pasos de entrenamiento. Además, se destaca por su simplicidad conceptual, lo que lo convierte en una elección sencilla para optimizar modelos de difusión en función de funciones de recompensa diferenciables de interés.

El enfoque de AlignProp utiliza gradientes obtenidos a partir de la función de recompensa con el propósito de afinar modelos de difusión, lo que resulta en mejoras tanto en la eficiencia de muestreo como en la efectividad computacional. Los experimentos realizados demuestran de manera constante la efectividad de AlignProp en la optimización de una amplia variedad de funciones de recompensa, incluso para tareas que son difíciles de definir únicamente a través de indicaciones. En el futuro, las posibles direcciones de investigación podrían implicar la aplicación de estos principios a modelos de lenguaje basados ​​en la difusión, con el objetivo de mejorar su alineación con la retroalimentación humana.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Primera parte del cuerpo humano derivada 3D impresa en el espacio

La empresa aeroespacial estadounidense Redwire dijo que ha impreso en tres dimensiones una parte del cuerpo humano en...

Inteligencia Artificial

El salto de KPMG hacia el futuro de la IA generativa

En un giro notable de los acontecimientos, el mundo de la consultoría y las finanzas está experimentando un viaje tra...

Inteligencia Artificial

Rendimiento máximo de IA las últimas actualizaciones de Adobe aceleradas por las GPU de NVIDIA mejoran los flujos de trabajo para millones de creativos.

La IA generativa está ayudando a los creativos de diversas industrias a dar vida a ideas a una velocidad sin preceden...

Aprendizaje Automático

Explorando la afinación de instrucciones en modelos de lenguaje conoce Tülu, una suite de modelos de lenguaje grandes (LLMs) afinados.

El famoso ChatGPT desarrollado por OpenAI es uno de los mejores ejemplos de Modelos de Lenguaje Grande (LLMs) que se ...

Aprendizaje Automático

Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Crear composiciones musicales a partir de descripciones de texto, como “canción de rock de los años 90 con un r...

Inteligencia Artificial

Google Street View al rescate el aprendizaje profundo abre el camino a edificios más seguros

Imágenes como las de Google Street View están adquiriendo un nuevo propósito en manos del profesor asistente de Intel...