Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas
Investigadores chinos revelan ImageReward un enfoque revolucionario de inteligencia artificial para optimizar modelos de texto a imagen, basado en la retroalimentación de preferencias humanas
En los últimos años, se han producido enormes avances en los modelos generativos de texto a imagen, incluyendo métodos auto-regresivos y basados en difusión. Estos modelos pueden producir imágenes semánticamente relevantes y de alta fidelidad sobre diversos temas cuando se les proporcionan las descripciones lingüísticas adecuadas (es decir, indicaciones), lo que ha despertado un considerable interés público en sus posibles usos y efectos. A pesar de los avances, los generadores pre-entrenados actuales todavía tienen mucho camino por recorrer. Debido a que la distribución de pre-entrenamiento es ruidosa y diferente de las distribuciones reales de las indicaciones de los usuarios, alinear los modelos con las preferencias humanas es una dificultad importante.
La diferencia resultante causa varios problemas conocidos en las fotografías, incluyendo pero no limitado a:
• Errores de alineación de texto e imagen: como se muestra en la Figura 1(a)(b), incluyendo la falta de representación de todos los números, cualidades, propiedades y conexiones de los objetos indicados en las indicaciones de texto.
- Explorando ideas contrafactuales de la correlación a la causalidad en el análisis de datos
- OpenAI contempla unirse a la Liga de la fabricación de chips de IA
- ¡Mejora tus habilidades en motores de búsqueda con el curso de Búsqueda con ML de Uplimit!
• Problema del cuerpo: mostrar extremidades u otras partes del cuerpo humanas o animales retorcidas, faltantes, duplicadas o aberrantes, como se muestra en la Figura 1(e)(f).
• Estética humana: alejarse de las preferencias estéticas típicas o convencionales de los humanos, como se muestra en la Figura 1(c)(d).
• Toxicidad y sesgos: incluyendo contenido ofensivo, violento, sexual, discriminatorio, ilegal o perturbador, como se muestra en la Figura 1(f).
Figura 1: (Superior) Imágenes de la generación número 1 de un total de 64 generaciones según varios evaluadores de puntuaciones de texto-imagen. (Inferior) Creación de una sola toma utilizando ImageReward como retroalimentación después del entrenamiento ReFL. La selección de ImageReward o el entrenamiento ReFL mejoran la coherencia del texto y la preferencia humana por las imágenes. La cursiva indica estilo o función, mientras que el texto en negrita generalmente implica el contenido de las indicaciones (de usuarios reales, abreviado).
Sin embargo, se requiere más que simplemente mejorar el diseño de los modelos y los datos de pre-entrenamiento para superar estos problemas persistentes. Los investigadores han utilizado el aprendizaje por refuerzo a partir de la retroalimentación humana en el procesamiento del lenguaje natural (PLN) para dirigir a los grandes modelos de lenguaje hacia las preferencias y valores humanos. El método depende de aprender un modelo de recompensas utilizando comparaciones masivas de las salidas del modelo anotadas por expertos para capturar la preferencia humana. A pesar de su efectividad, el proceso de anotación puede ser costoso y difícil, ya que lleva meses definir los criterios de etiquetado, contratar y capacitar a expertos, validar las respuestas y generar el modelo de recompensas.
Investigadores de la Universidad de Tsinghua y la Universidad de Correos y Telecomunicaciones de Beijing presentan y lanzan el primer modelo de recompensa de preferencia humana de texto a imagen de propósito general, ImageReward, en reconocimiento de la importancia de abordar estas dificultades en los modelos generativos. ImageReward se entrena y evalúa en 137k pares de comparaciones de expertos basadas en indicaciones reales de usuarios y salidas de modelos correspondientes. Continúan investigando la estrategia de optimización directa ReFL para mejorar los modelos generativos basados en difusión.
• Desarrollan un proceso para la anotación de preferencia humana de texto a imagen identificando sistemáticamente sus dificultades, estableciendo estándares para la evaluación cuantitativa y la capacitación de los anotadores, mejorando la eficiencia del etiquetado y garantizando la validación de la calidad. Crean el conjunto de datos de comparación de texto a imagen basado en este proceso para entrenar el modelo ImageReward.
• Mediante un estudio exhaustivo y pruebas, demuestran que ImageReward supera a otras técnicas de puntuación de texto-imagen, como CLIP (en un 38.6%), Aesthetic (en un 39.6%) y BLIP (en un 31.6%), en términos de comprender la preferencia humana en la síntesis de texto a imagen. Además, ImageReward ha demostrado una considerable reducción en los problemas mencionados anteriormente, ofreciendo información perspicaz sobre la incorporación del deseo humano en los modelos generativos.
• Afirmar que la medida automatizada de evaluación de texto a imagen ImageReward podría ser útil. ImageReward se alinea consistentemente con la clasificación de preferencia humana y exhibe una distinción superior en comparación con las puntuaciones FID y CLIP en indicaciones de usuarios reales y MS-COCO 2014.
• Para ajustar modelos de difusión relacionados con los puntajes de preferencia humana, sugieren el aprendizaje de retroalimentación de recompensa (ReFL). Dado que los modelos de difusión no proporcionan ninguna probabilidad para sus generaciones, su perspicacia especial en la identificabilidad de la calidad de ImageReward en fases posteriores de eliminación de ruido facilita el aprendizaje de retroalimentación directa en esos modelos. ReFL ha sido evaluado de manera exhaustiva tanto automáticamente como manualmente, demostrando sus ventajas sobre otros métodos, incluida la ampliación de datos y la ponderación de pérdida.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Introducción completa a la generación de imágenes de IA
- Inteligencia Artificial Generativa en Azure Machine Learning Operacionalizando el Desarrollo de Aplicaciones para la Transformación de la IA
- ¿Cómo podemos prever nuestra relación con la IA?
- 3 proyectos de ciencia de datos garantizados para conseguir ese trabajo
- Investigadores de ETH Zurich y Microsoft presentan SCREWS Un marco de inteligencia artificial para mejorar el razonamiento en modelos de lenguaje grandes.
- Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…
- Meta AI presenta AnyMAL el futuro de los modelos de lenguaje multimodal que conecta texto, imágenes, videos, audio y datos de sensores de movimiento.