Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes
Venciendo las Alucinaciones en la IA Cómo el RLHF con Factually Augmented Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes
Mediante un entrenamiento adicional utilizando combinaciones de imágenes y texto o ajustándolas mediante conjuntos de datos especializados para la afinación de instrucciones visuales, los Modelos de Lenguaje Grande pueden adentrarse en el ámbito multimodal, dando lugar a potentes Modelos Multimodales Grandes. Sin embargo, existen obstáculos en la construcción de MMLs, siendo el más importante la disparidad entre la cantidad y calidad de los datos multimodales y los conjuntos de datos solo de texto. Tomemos el modelo LLaVA, iniciado desde un codificador visual preentrenado y un modelo de lenguaje ajustado para instrucciones. Se entrena con muchas menos instancias que los modelos solo de texto, que usan más de 100 millones de ejemplos en más de 1800 tareas. Solo se entrena con 150 mil conversaciones artificiales basadas en imágenes. Debido a estas restricciones de datos, las modalidades visual y de lenguaje pueden no estar alineadas.
Como resultado, los MMLs podrían generar salidas alucinatorias que no están relacionadas con precisión con el contexto que proporcionan las imágenes. Investigadores de UC Berkeley, CMU, UIUC, UW–Madison, UMass Amherst Microsoft Research y MIT-IBM Watson AI Lab presentan LLaVA-RLHF, un modelo de visión y lenguaje entrenado para una alineación multimodal mejorada, para abordar los problemas causados por la falta de datos de afinación de instrucciones visuales de alta calidad para el entrenamiento de MML. Una de sus principales contribuciones es adaptar la alineación multimodal para MMLs al paradigma universal y escalable de alineación conocido como Aprendizaje por Reforzamiento a partir de la Retroalimentación Humana, que ha demostrado una eficacia notable para los agentes de IA basados en texto. Para ajustar finamente los MML, recopila las preferencias humanas centrándose en reconocer las alucinaciones y utiliza esas preferencias en el aprendizaje por reforzamiento.
Esta estrategia puede mejorar la alineación multimodal a un costo de anotación relativamente bajo, como $3000 para recopilar 10 mil preferencias humanas para discusiones basadas en imágenes. Hasta donde saben, esta estrategia es el primer uso efectivo de RLHF para la alineación multimodal. Obtener altas calificaciones del modelo de recompensa solo a veces se traduce en mejorar los juicios humanos, lo que es manipulación de recompensas. Este es un posible problema con el paradigma actual de RLHF. Investigaciones previas sugieren recopilar de manera iterativa retroalimentación humana “nueva” para detener la manipulación de recompensas, pero este método suele ser costoso y no puede utilizar adecuadamente los datos de preferencia humana existentes. Este estudio sugiere una opción más eficiente en términos de datos, intentando que el modelo de recompensa sea capaz de utilizar el conocimiento y los datos ya presentes en los modelos de lenguaje más grandes que los humanos han anotado.
- Una guía paso a paso para seleccionar y ejecutar tu propio modelo generativo
- Todo lo que necesitas saber sobre la serie de modelos de lenguaje (LLMs) Qwen Large
- Desde el Internet de las Cosas hasta el Internet de Todo La Convergencia de la IA y el 6G para una Inteligencia Conectada
Figura 1: Diagrama que ilustra la posibilidad de alucinaciones durante la fase de Afinación Supervisada (SFT) del entrenamiento de MML y la forma en que Factually Augmented RLHF aborda el problema de la capacidad baja en el modelo de recompensa, que se inicia a partir del modelo SFT.
En primer lugar, utilizan un codificador visual superior con mayores resoluciones y un modelo de lenguaje más grande para mejorar la funcionalidad general del modelo de recompensa. En segundo lugar, presentan el algoritmo Factually Augmented RLHF, que, como se muestra en la Fig. 1, calibra las señales de recompensa complementándolas con información adicional como descripciones de imágenes u opciones de selección múltiple de verdad absoluta. También aumentan los datos de afinación de instrucciones visuales sintéticas con datos multimodales humanos de alta calidad ya anotados en formato de conversación para mejorar las capacidades generales de los MMLs durante la etapa de Afinación Supervisada. Específicamente, transforman Flickr30k en una tarea de Subtítulos de Detección, VQA-v2 y A-OKVQA en una tarea de QA de varias rondas y entrenan los modelos LLaVA-SFT+ utilizando el nuevo conjunto de datos.
Por último, consideran cómo evaluar la alineación multimodal de los MMLs en situaciones de creación del mundo real, prestando especial atención a penalizar cualquier alucinación. Las preguntas de referencia que desarrollan, MMHAL-BENCH, cubren las 12 categorías clave de objetos de COCO y comprenden ocho tipos de trabajo. Según su análisis, este conjunto de datos de referencia se acerca mucho a las evaluaciones humanas, especialmente si se consideran las puntuaciones en contra de las alucinaciones. Como el primer MML entrenado con RLHF, LLaVA-RLHF se desempeña admirablemente en su evaluación experimental. Se observó una mejora del 94% en LLaVA-Bench, una mejora del 60% en MMHAL-BENCH, y establecieron nuevos récords de rendimiento para LLaVA con un 52.4% en MMBench y un F1 del 82.7% en POPE. En GitHub, han puesto su código, modelo y datos a disposición del público.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La mejor aventura de IA residencia de OpenAI
- Google DeepMind lanza Open X-Embodiment, que incluye un conjunto de datos de robótica con más de 1 millón de trayectorias y un modelo de IA generalista (𝗥𝗧-X) para ayudar a avanzar en cómo los robots pueden aprender nuevas habilidades.
- Los 12 principios fundamentales de la gobernanza de la IA
- Reka AI presenta a Yasa-1 un asistente de lenguaje multimodal con sensores visuales y auditivos que puede tomar acciones mediante la ejecución de código.
- Investigadores de la Universidad Tsinghua y Microsoft presentan ToRA un agente de razonamiento integrado con herramientas de inteligencia artificial para la resolución de problemas matemáticos.
- ¿Cómo funciona el PPO con recorte?
- Orquestación de Experimentos Desde Cero