Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas

Investigadores chinos revelan ImageReward un enfoque revolucionario de inteligencia artificial para optimizar modelos de texto a imagen, basado en la retroalimentación de preferencias humanas


En los últimos años, se han producido enormes avances en los modelos generativos de texto a imagen, incluyendo métodos auto-regresivos y basados en difusión. Estos modelos pueden producir imágenes semánticamente relevantes y de alta fidelidad sobre diversos temas cuando se les proporcionan las descripciones lingüísticas adecuadas (es decir, indicaciones), lo que ha despertado un considerable interés público en sus posibles usos y efectos. A pesar de los avances, los generadores pre-entrenados actuales todavía tienen mucho camino por recorrer. Debido a que la distribución de pre-entrenamiento es ruidosa y diferente de las distribuciones reales de las indicaciones de los usuarios, alinear los modelos con las preferencias humanas es una dificultad importante.

La diferencia resultante causa varios problemas conocidos en las fotografías, incluyendo pero no limitado a:

• Errores de alineación de texto e imagen: como se muestra en la Figura 1(a)(b), incluyendo la falta de representación de todos los números, cualidades, propiedades y conexiones de los objetos indicados en las indicaciones de texto.

• Problema del cuerpo: mostrar extremidades u otras partes del cuerpo humanas o animales retorcidas, faltantes, duplicadas o aberrantes, como se muestra en la Figura 1(e)(f).

• Estética humana: alejarse de las preferencias estéticas típicas o convencionales de los humanos, como se muestra en la Figura 1(c)(d).

• Toxicidad y sesgos: incluyendo contenido ofensivo, violento, sexual, discriminatorio, ilegal o perturbador, como se muestra en la Figura 1(f).

Figura 1: (Superior) Imágenes de la generación número 1 de un total de 64 generaciones según varios evaluadores de puntuaciones de texto-imagen. (Inferior) Creación de una sola toma utilizando ImageReward como retroalimentación después del entrenamiento ReFL. La selección de ImageReward o el entrenamiento ReFL mejoran la coherencia del texto y la preferencia humana por las imágenes. La cursiva indica estilo o función, mientras que el texto en negrita generalmente implica el contenido de las indicaciones (de usuarios reales, abreviado).

Sin embargo, se requiere más que simplemente mejorar el diseño de los modelos y los datos de pre-entrenamiento para superar estos problemas persistentes. Los investigadores han utilizado el aprendizaje por refuerzo a partir de la retroalimentación humana en el procesamiento del lenguaje natural (PLN) para dirigir a los grandes modelos de lenguaje hacia las preferencias y valores humanos. El método depende de aprender un modelo de recompensas utilizando comparaciones masivas de las salidas del modelo anotadas por expertos para capturar la preferencia humana. A pesar de su efectividad, el proceso de anotación puede ser costoso y difícil, ya que lleva meses definir los criterios de etiquetado, contratar y capacitar a expertos, validar las respuestas y generar el modelo de recompensas.

Investigadores de la Universidad de Tsinghua y la Universidad de Correos y Telecomunicaciones de Beijing presentan y lanzan el primer modelo de recompensa de preferencia humana de texto a imagen de propósito general, ImageReward, en reconocimiento de la importancia de abordar estas dificultades en los modelos generativos. ImageReward se entrena y evalúa en 137k pares de comparaciones de expertos basadas en indicaciones reales de usuarios y salidas de modelos correspondientes. Continúan investigando la estrategia de optimización directa ReFL para mejorar los modelos generativos basados en difusión.

• Desarrollan un proceso para la anotación de preferencia humana de texto a imagen identificando sistemáticamente sus dificultades, estableciendo estándares para la evaluación cuantitativa y la capacitación de los anotadores, mejorando la eficiencia del etiquetado y garantizando la validación de la calidad. Crean el conjunto de datos de comparación de texto a imagen basado en este proceso para entrenar el modelo ImageReward.

• Mediante un estudio exhaustivo y pruebas, demuestran que ImageReward supera a otras técnicas de puntuación de texto-imagen, como CLIP (en un 38.6%), Aesthetic (en un 39.6%) y BLIP (en un 31.6%), en términos de comprender la preferencia humana en la síntesis de texto a imagen. Además, ImageReward ha demostrado una considerable reducción en los problemas mencionados anteriormente, ofreciendo información perspicaz sobre la incorporación del deseo humano en los modelos generativos.

• Afirmar que la medida automatizada de evaluación de texto a imagen ImageReward podría ser útil. ImageReward se alinea consistentemente con la clasificación de preferencia humana y exhibe una distinción superior en comparación con las puntuaciones FID y CLIP en indicaciones de usuarios reales y MS-COCO 2014.

• Para ajustar modelos de difusión relacionados con los puntajes de preferencia humana, sugieren el aprendizaje de retroalimentación de recompensa (ReFL). Dado que los modelos de difusión no proporcionan ninguna probabilidad para sus generaciones, su perspicacia especial en la identificabilidad de la calidad de ImageReward en fases posteriores de eliminación de ruido facilita el aprendizaje de retroalimentación directa en esos modelos. ReFL ha sido evaluado de manera exhaustiva tanto automáticamente como manualmente, demostrando sus ventajas sobre otros métodos, incluida la ampliación de datos y la ponderación de pérdida.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo crear un plan de estudio autodidacta de ciencia de datos de 1 año utilizando la estacionalidad de tu cerebro

Enseñarte a ti mismo ciencia de datos puede parecer algo inalcanzable cuando todo lo que recibes en las redes sociale...

Inteligencia Artificial

La instancia de Amazon EC2 DL2q para inferencia de IA rentable y de alto rendimiento ahora está disponible en general

Este es un post invitado de A.K Roy de Qualcomm AI. Las instancias DL2q de Amazon Elastic Compute Cloud (Amazon EC2),...

Inteligencia Artificial

Este artículo de IA propone inyectar el mundo 3D en los grandes modelos de lenguaje y presentar una nueva familia completa de modelos de lenguaje 3D (3D-LLMs).

En los últimos años, hemos visto un aumento en los modelos de lenguaje grandes (LLMs) (como GPT4) que son excelentes ...

Inteligencia Artificial

Los autos sin conductor pueden tener dificultades para detectar a los niños y a las personas de piel oscura.

Los científicos evaluaron ocho detectores de peatones basados en inteligencia artificial utilizados en la investigaci...

Inteligencia Artificial

Google Chrome ahora muestra resúmenes de artículos impulsados por IA para una lectura sin esfuerzo

Google está una vez más a la vanguardia de la innovación con su Experiencia Generativa de Búsqueda (SGE) impulsada po...