Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Venciendo las Alucinaciones en la IA Cómo el RLHF con Factually Augmented Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Mediante un entrenamiento adicional utilizando combinaciones de imágenes y texto o ajustándolas mediante conjuntos de datos especializados para la afinación de instrucciones visuales, los Modelos de Lenguaje Grande pueden adentrarse en el ámbito multimodal, dando lugar a potentes Modelos Multimodales Grandes. Sin embargo, existen obstáculos en la construcción de MMLs, siendo el más importante la disparidad entre la cantidad y calidad de los datos multimodales y los conjuntos de datos solo de texto. Tomemos el modelo LLaVA, iniciado desde un codificador visual preentrenado y un modelo de lenguaje ajustado para instrucciones. Se entrena con muchas menos instancias que los modelos solo de texto, que usan más de 100 millones de ejemplos en más de 1800 tareas. Solo se entrena con 150 mil conversaciones artificiales basadas en imágenes. Debido a estas restricciones de datos, las modalidades visual y de lenguaje pueden no estar alineadas.

Como resultado, los MMLs podrían generar salidas alucinatorias que no están relacionadas con precisión con el contexto que proporcionan las imágenes. Investigadores de UC Berkeley, CMU, UIUC, UW–Madison, UMass Amherst Microsoft Research y MIT-IBM Watson AI Lab presentan LLaVA-RLHF, un modelo de visión y lenguaje entrenado para una alineación multimodal mejorada, para abordar los problemas causados por la falta de datos de afinación de instrucciones visuales de alta calidad para el entrenamiento de MML. Una de sus principales contribuciones es adaptar la alineación multimodal para MMLs al paradigma universal y escalable de alineación conocido como Aprendizaje por Reforzamiento a partir de la Retroalimentación Humana, que ha demostrado una eficacia notable para los agentes de IA basados en texto. Para ajustar finamente los MML, recopila las preferencias humanas centrándose en reconocer las alucinaciones y utiliza esas preferencias en el aprendizaje por reforzamiento.

Esta estrategia puede mejorar la alineación multimodal a un costo de anotación relativamente bajo, como $3000 para recopilar 10 mil preferencias humanas para discusiones basadas en imágenes. Hasta donde saben, esta estrategia es el primer uso efectivo de RLHF para la alineación multimodal. Obtener altas calificaciones del modelo de recompensa solo a veces se traduce en mejorar los juicios humanos, lo que es manipulación de recompensas. Este es un posible problema con el paradigma actual de RLHF. Investigaciones previas sugieren recopilar de manera iterativa retroalimentación humana “nueva” para detener la manipulación de recompensas, pero este método suele ser costoso y no puede utilizar adecuadamente los datos de preferencia humana existentes. Este estudio sugiere una opción más eficiente en términos de datos, intentando que el modelo de recompensa sea capaz de utilizar el conocimiento y los datos ya presentes en los modelos de lenguaje más grandes que los humanos han anotado.

Figura 1: Diagrama que ilustra la posibilidad de alucinaciones durante la fase de Afinación Supervisada (SFT) del entrenamiento de MML y la forma en que Factually Augmented RLHF aborda el problema de la capacidad baja en el modelo de recompensa, que se inicia a partir del modelo SFT.

En primer lugar, utilizan un codificador visual superior con mayores resoluciones y un modelo de lenguaje más grande para mejorar la funcionalidad general del modelo de recompensa. En segundo lugar, presentan el algoritmo Factually Augmented RLHF, que, como se muestra en la Fig. 1, calibra las señales de recompensa complementándolas con información adicional como descripciones de imágenes u opciones de selección múltiple de verdad absoluta. También aumentan los datos de afinación de instrucciones visuales sintéticas con datos multimodales humanos de alta calidad ya anotados en formato de conversación para mejorar las capacidades generales de los MMLs durante la etapa de Afinación Supervisada. Específicamente, transforman Flickr30k en una tarea de Subtítulos de Detección, VQA-v2 y A-OKVQA en una tarea de QA de varias rondas y entrenan los modelos LLaVA-SFT+ utilizando el nuevo conjunto de datos.

Por último, consideran cómo evaluar la alineación multimodal de los MMLs en situaciones de creación del mundo real, prestando especial atención a penalizar cualquier alucinación. Las preguntas de referencia que desarrollan, MMHAL-BENCH, cubren las 12 categorías clave de objetos de COCO y comprenden ocho tipos de trabajo. Según su análisis, este conjunto de datos de referencia se acerca mucho a las evaluaciones humanas, especialmente si se consideran las puntuaciones en contra de las alucinaciones. Como el primer MML entrenado con RLHF, LLaVA-RLHF se desempeña admirablemente en su evaluación experimental. Se observó una mejora del 94% en LLaVA-Bench, una mejora del 60% en MMHAL-BENCH, y establecieron nuevos récords de rendimiento para LLaVA con un 52.4% en MMBench y un F1 del 82.7% en POPE. En GitHub, han puesto su código, modelo y datos a disposición del público.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Was this article helpful?

Una guía paso a paso para seleccionar y ejecutar tu propio modelo generativo

5 casos de uso de IA generativa que las empresas pueden implementar hoy

Inteligencia Artificial

Conoce FourCastNet un modelo global de pronóstico del tiempo impulsado por datos que revoluciona las predicciones meteorológicas con un enfoque de aprendizaje profundo rápido y preciso

Pagaste $1,000 por un iPhone, pero Apple todavía lo controla

Día de Desarrollo de OpenAI 2023 ¡Cuatro importantes anuncios de la presentación principal del fundador Sam Altman que no puedes perderte!

Ayudando a la Visión por Computadora y a los Modelos de Lenguaje a Comprender lo que Ven

Conoce LLaSM Un modelo de habla y lenguaje multimodal grande y entrenado de principio a fin con habilidades conversacionales cruzadas capaz de seguir instrucciones de habla y lenguaje.

Amazon Vs Google Vs Microsoft La carrera para revolucionar la atención médica con IA