Investigadores de CMU y Google DeepMind presentan AlignProp un enfoque de IA basado en retropropagación directa para afinar los modelos de difusión de texto a imagen para una función de recompensa deseada.

Investigadores de CMU y Google DeepMind presentan AlignProp una nueva aproximación de IA para perfeccionar los modelos de traducción de texto a imagen y alcanzar una función de recompensa deseada.

Los modelos probabilísticos de difusión se han convertido en la norma establecida para la generación de modelos en dominios continuos. A la vanguardia de los modelos de difusión de texto a imagen se encuentra DALLE. Estos modelos han ganado protagonismo debido a su capacidad para generar imágenes mediante el entrenamiento en conjuntos de datos a gran escala en la web. El documento analiza la reciente aparición de modelos de difusión de texto a imagen en la vanguardia de la generación de imágenes. Estos modelos han sido entrenados en conjuntos de datos de texto a imagen no supervisados o débilmente supervisados a gran escala. Sin embargo, debido a su naturaleza no supervisada, controlar su comportamiento en tareas posteriores como la optimización de la calidad de imagen percibida por los humanos, la alineación de imagen y texto o la generación ética de imágenes es un desafío complicado.

Investigaciones recientes han intentado afinar los modelos de difusión utilizando técnicas de aprendizaje por refuerzo, pero este enfoque es conocido por su alta varianza en la estimación de gradientes. En respuesta, el documento introduce “AlignProp”, un método que alinea los modelos de difusión con funciones de recompensa posteriores mediante la retropropagación de extremo a extremo del gradiente de recompensa durante el proceso de eliminación de ruido.

El enfoque innovador de AlignProp mitiga los altos requisitos de memoria que normalmente se asociarían con la retropropagación a través de los modernos modelos de texto a imagen. Lo logra ajustando módulos de peso de adaptador de rango bajo e implementando la comprobación de gradientes.

El documento evalúa el rendimiento de AlignProp en la afinación de modelos de difusión para diversos objetivos, incluida la alineación semántica imagen-texto, la estética, la compresibilidad de imagen y la controlabilidad del número de objetos en las imágenes generadas, así como combinaciones de estos objetivos. Los resultados demuestran que AlignProp supera a los métodos alternativos al lograr recompensas más altas en menos pasos de entrenamiento. Además, se destaca por su simplicidad conceptual, lo que lo convierte en una elección sencilla para optimizar modelos de difusión en función de funciones de recompensa diferenciables de interés.

El enfoque de AlignProp utiliza gradientes obtenidos a partir de la función de recompensa con el propósito de afinar modelos de difusión, lo que resulta en mejoras tanto en la eficiencia de muestreo como en la efectividad computacional. Los experimentos realizados demuestran de manera constante la efectividad de AlignProp en la optimización de una amplia variedad de funciones de recompensa, incluso para tareas que son difíciles de definir únicamente a través de indicaciones. En el futuro, las posibles direcciones de investigación podrían implicar la aplicación de estos principios a modelos de lenguaje basados en la difusión, con el objetivo de mejorar su alineación con la retroalimentación humana.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores de CMU y Google DeepMind presentan AlignProp un enfoque de IA basado en retropropagación directa para afinar los modelos de difusión de texto a imagen para una función de recompensa deseada.

Was this article helpful?

Proyecto Green Light de Google sincroniza los semáforos para reducir en un 30% las paradas

Cómo Veriff redujo el tiempo de implementación en un 80% utilizando los puntos de enlace multitarea de Amazon SageMaker

Inteligencia Artificial

Primera parte del cuerpo humano derivada 3D impresa en el espacio

El salto de KPMG hacia el futuro de la IA generativa

Rendimiento máximo de IA las últimas actualizaciones de Adobe aceleradas por las GPU de NVIDIA mejoran los flujos de trabajo para millones de creativos.

Explorando la afinación de instrucciones en modelos de lenguaje conoce Tülu, una suite de modelos de lenguaje grandes (LLMs) afinados.

Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Google Street View al rescate el aprendizaje profundo abre el camino a edificios más seguros