Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas

Investigadores chinos revelan ImageReward un enfoque revolucionario de inteligencia artificial para optimizar modelos de texto a imagen, basado en la retroalimentación de preferencias humanas

En los últimos años, se han producido enormes avances en los modelos generativos de texto a imagen, incluyendo métodos auto-regresivos y basados en difusión. Estos modelos pueden producir imágenes semánticamente relevantes y de alta fidelidad sobre diversos temas cuando se les proporcionan las descripciones lingüísticas adecuadas (es decir, indicaciones), lo que ha despertado un considerable interés público en sus posibles usos y efectos. A pesar de los avances, los generadores pre-entrenados actuales todavía tienen mucho camino por recorrer. Debido a que la distribución de pre-entrenamiento es ruidosa y diferente de las distribuciones reales de las indicaciones de los usuarios, alinear los modelos con las preferencias humanas es una dificultad importante.

La diferencia resultante causa varios problemas conocidos en las fotografías, incluyendo pero no limitado a:

• Errores de alineación de texto e imagen: como se muestra en la Figura 1(a)(b), incluyendo la falta de representación de todos los números, cualidades, propiedades y conexiones de los objetos indicados en las indicaciones de texto.

• Problema del cuerpo: mostrar extremidades u otras partes del cuerpo humanas o animales retorcidas, faltantes, duplicadas o aberrantes, como se muestra en la Figura 1(e)(f).

• Estética humana: alejarse de las preferencias estéticas típicas o convencionales de los humanos, como se muestra en la Figura 1(c)(d).

• Toxicidad y sesgos: incluyendo contenido ofensivo, violento, sexual, discriminatorio, ilegal o perturbador, como se muestra en la Figura 1(f).

Figura 1: (Superior) Imágenes de la generación número 1 de un total de 64 generaciones según varios evaluadores de puntuaciones de texto-imagen. (Inferior) Creación de una sola toma utilizando ImageReward como retroalimentación después del entrenamiento ReFL. La selección de ImageReward o el entrenamiento ReFL mejoran la coherencia del texto y la preferencia humana por las imágenes. La cursiva indica estilo o función, mientras que el texto en negrita generalmente implica el contenido de las indicaciones (de usuarios reales, abreviado).

Sin embargo, se requiere más que simplemente mejorar el diseño de los modelos y los datos de pre-entrenamiento para superar estos problemas persistentes. Los investigadores han utilizado el aprendizaje por refuerzo a partir de la retroalimentación humana en el procesamiento del lenguaje natural (PLN) para dirigir a los grandes modelos de lenguaje hacia las preferencias y valores humanos. El método depende de aprender un modelo de recompensas utilizando comparaciones masivas de las salidas del modelo anotadas por expertos para capturar la preferencia humana. A pesar de su efectividad, el proceso de anotación puede ser costoso y difícil, ya que lleva meses definir los criterios de etiquetado, contratar y capacitar a expertos, validar las respuestas y generar el modelo de recompensas.

Investigadores de la Universidad de Tsinghua y la Universidad de Correos y Telecomunicaciones de Beijing presentan y lanzan el primer modelo de recompensa de preferencia humana de texto a imagen de propósito general, ImageReward, en reconocimiento de la importancia de abordar estas dificultades en los modelos generativos. ImageReward se entrena y evalúa en 137k pares de comparaciones de expertos basadas en indicaciones reales de usuarios y salidas de modelos correspondientes. Continúan investigando la estrategia de optimización directa ReFL para mejorar los modelos generativos basados en difusión.

• Desarrollan un proceso para la anotación de preferencia humana de texto a imagen identificando sistemáticamente sus dificultades, estableciendo estándares para la evaluación cuantitativa y la capacitación de los anotadores, mejorando la eficiencia del etiquetado y garantizando la validación de la calidad. Crean el conjunto de datos de comparación de texto a imagen basado en este proceso para entrenar el modelo ImageReward.

• Mediante un estudio exhaustivo y pruebas, demuestran que ImageReward supera a otras técnicas de puntuación de texto-imagen, como CLIP (en un 38.6%), Aesthetic (en un 39.6%) y BLIP (en un 31.6%), en términos de comprender la preferencia humana en la síntesis de texto a imagen. Además, ImageReward ha demostrado una considerable reducción en los problemas mencionados anteriormente, ofreciendo información perspicaz sobre la incorporación del deseo humano en los modelos generativos.

• Afirmar que la medida automatizada de evaluación de texto a imagen ImageReward podría ser útil. ImageReward se alinea consistentemente con la clasificación de preferencia humana y exhibe una distinción superior en comparación con las puntuaciones FID y CLIP en indicaciones de usuarios reales y MS-COCO 2014.

• Para ajustar modelos de difusión relacionados con los puntajes de preferencia humana, sugieren el aprendizaje de retroalimentación de recompensa (ReFL). Dado que los modelos de difusión no proporcionan ninguna probabilidad para sus generaciones, su perspicacia especial en la identificabilidad de la calidad de ImageReward en fases posteriores de eliminación de ruido facilita el aprendizaje de retroalimentación directa en esos modelos. ReFL ha sido evaluado de manera exhaustiva tanto automáticamente como manualmente, demostrando sus ventajas sobre otros métodos, incluida la ampliación de datos y la ponderación de pérdida.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas

Was this article helpful?

Explorando ideas contrafactuales de la correlación a la causalidad en el análisis de datos

Aprovechando la IA para un mundo mejor

Inteligencia Artificial

Cómo crear un plan de estudio autodidacta de ciencia de datos de 1 año utilizando la estacionalidad de tu cerebro

La instancia de Amazon EC2 DL2q para inferencia de IA rentable y de alto rendimiento ahora está disponible en general

Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).

Los autos sin conductor pueden tener dificultades para detectar a los niños y a las personas de piel oscura.

Una nueva investigación de AI de Apple y Equall AI revela redundancias en la arquitectura de Transformer Cómo optimizar la red de avance de alimentación mejora la eficiencia y la precisión

Google Chrome ahora muestra resúmenes de artículos impulsados por IA para una lectura sin esfuerzo