Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento en modelos de lenguaje que supera a GPT-3.5 en un 16% (75,17% → 91,68%) en ScienceQA.
Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento que supera a GPT-3.5 en un 16% en ScienceQA.
Debido a los recientes avances tecnológicos, los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) han tenido un rendimiento notable en tareas de razonamiento complejas y sofisticadas. Esto se logra generando pasos de razonamiento intermedios para las demostraciones de estímulo, lo cual también se conoce como estímulo de cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, la mayoría de los trabajos actuales sobre CoT se centran únicamente en la modalidad del lenguaje, y para extraer el razonamiento CoT en multimodalidad, los investigadores emplean con frecuencia el paradigma Multimodal-CoT. Multimodal-CoT divide los problemas de varios pasos en procesos de razonamiento intermedios, generando la salida final incluso cuando las entradas están en diversas modalidades como visión y lenguaje. Una de las formas más populares de llevar a cabo Multimodal-CoT es combinar la entrada de múltiples modalidades en una sola modalidad antes de solicitar a los LLMs que realicen CoT. Sin embargo, este método tiene varias desventajas, siendo una de ellas la pérdida significativa de información que ocurre al convertir datos de una modalidad a otra. Otra forma de lograr el razonamiento CoT en multimodalidad es ajustar modelos de lenguaje pequeños combinando diferentes características de visión y lenguaje.
Sin embargo, el problema principal de este enfoque es que estos modelos de lenguaje tienen la tendencia a producir patrones de razonamiento alucinatorios que afectan significativamente la inferencia de respuestas. Para disminuir el impacto de tales errores, los investigadores de Amazon propusieron Multimodal-CoT, que combina características visuales en un marco de entrenamiento desacoplado. El marco divide el proceso de razonamiento en dos fases: generación de argumentos y inferencia de respuestas. El modelo produce argumentos más persuasivos al incluir los aspectos visuales en ambas etapas, lo que ayuda a crear inferencias de respuestas más precisas. Este trabajo es el primero en su tipo que estudia el razonamiento CoT en diferentes modalidades. En el conjunto de datos de referencia ScienceQA, la técnica, proporcionada por los investigadores de Amazon, demuestra un rendimiento de vanguardia, superando la precisión de GPT-3.5 en un 16% y superando el rendimiento humano.
Las etapas de inferencia y generación de razonamiento de Multimodal-answer CoT utilizan la misma arquitectura de modelo y difieren en el tipo de entrada y salida. Tomando como ejemplo un modelo de visión y lenguaje, se alimenta al modelo con datos de los dominios visual y del lenguaje durante la etapa de generación de argumentos. Una vez que se ha producido el argumento, se agrega a la entrada de lenguaje inicial en la etapa de inferencia de respuestas para crear la entrada de lenguaje para la siguiente etapa. Luego, se proporcionan los datos actualizados al modelo y se entrena para producir el resultado deseado. Un modelo basado en transformadores que realiza tres funciones principales (codificación, interacción y decodificación) proporciona la base del modelo subyacente. En resumen, se suministra el texto del lenguaje a un codificador Transformer para crear una representación textual. Esta representación textual se combina luego con la representación visual y se alimenta al decodificador Transformer.
- Investigadores de la Universidad de UT Austin presentan PSLD Un método de IA que utiliza difusión estable para resolver todos los problemas lineales sin necesidad de entrenamiento adicional.
- 10 proyectos de SQL principales para análisis de datos
- Investigadores de UC Berkeley proponen FastRLAP un sistema para aprender a conducir a alta velocidad mediante Deep RL (Aprendizaje por Reforzamiento) y práctica autónoma
Para evaluar la efectividad de su método, los investigadores realizaron numerosas pruebas en el conjunto de datos de referencia ScienceQA, un conjunto de datos multimodal de preguntas científicas que contiene más de 21k preguntas de opción múltiple multimodales con respuestas anotadas. Los investigadores concluyeron que su enfoque supera al modelo GPT-3.5, el más avanzado hasta el momento, en un 16% en el conjunto de datos de referencia. En pocas palabras, los investigadores de Amazon investigaron y resolvieron el problema de obtener razonamiento Multimodal-CoT presentando un marco de dos etapas mediante el ajuste fino de modelos de lenguaje para combinar representaciones visuales y del lenguaje para ejecutar Multimodal-CoT. El modelo, por lo tanto, genera argumentos informativos para facilitar la inferencia de respuestas finales. El repositorio de GitHub para el modelo se puede acceder a continuación.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce DISCO Una novedosa técnica de IA para la generación de bailes humanos
- Una guía completa para convertir texto en audio con Audio-LDM
- Comenzando con la biblioteca de manipulación de datos Polars
- Recuperación de Información para Generación con Recuperación Mejorada
- ¿Cómo convertirse en un estratega de datos en 2023?
- Una introducción a Pymc y el lenguaje para describir modelos estadísticos
- Estudio de caso Habla con tus datos utilizando el intérprete de código en ChatGPT Plus.