Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento en modelos de lenguaje que supera a GPT-3.5 en un 16% (75,17% → 91,68%) en ScienceQA.

Una nueva investigación de inteligencia artificial propone un razonamiento multimodal de cadena de pensamiento que supera a GPT-3.5 en un 16% en ScienceQA.

Debido a los recientes avances tecnológicos, los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) han tenido un rendimiento notable en tareas de razonamiento complejas y sofisticadas. Esto se logra generando pasos de razonamiento intermedios para las demostraciones de estímulo, lo cual también se conoce como estímulo de cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, la mayoría de los trabajos actuales sobre CoT se centran únicamente en la modalidad del lenguaje, y para extraer el razonamiento CoT en multimodalidad, los investigadores emplean con frecuencia el paradigma Multimodal-CoT. Multimodal-CoT divide los problemas de varios pasos en procesos de razonamiento intermedios, generando la salida final incluso cuando las entradas están en diversas modalidades como visión y lenguaje. Una de las formas más populares de llevar a cabo Multimodal-CoT es combinar la entrada de múltiples modalidades en una sola modalidad antes de solicitar a los LLMs que realicen CoT. Sin embargo, este método tiene varias desventajas, siendo una de ellas la pérdida significativa de información que ocurre al convertir datos de una modalidad a otra. Otra forma de lograr el razonamiento CoT en multimodalidad es ajustar modelos de lenguaje pequeños combinando diferentes características de visión y lenguaje.

Sin embargo, el problema principal de este enfoque es que estos modelos de lenguaje tienen la tendencia a producir patrones de razonamiento alucinatorios que afectan significativamente la inferencia de respuestas. Para disminuir el impacto de tales errores, los investigadores de Amazon propusieron Multimodal-CoT, que combina características visuales en un marco de entrenamiento desacoplado. El marco divide el proceso de razonamiento en dos fases: generación de argumentos y inferencia de respuestas. El modelo produce argumentos más persuasivos al incluir los aspectos visuales en ambas etapas, lo que ayuda a crear inferencias de respuestas más precisas. Este trabajo es el primero en su tipo que estudia el razonamiento CoT en diferentes modalidades. En el conjunto de datos de referencia ScienceQA, la técnica, proporcionada por los investigadores de Amazon, demuestra un rendimiento de vanguardia, superando la precisión de GPT-3.5 en un 16% y superando el rendimiento humano.

Las etapas de inferencia y generación de razonamiento de Multimodal-answer CoT utilizan la misma arquitectura de modelo y difieren en el tipo de entrada y salida. Tomando como ejemplo un modelo de visión y lenguaje, se alimenta al modelo con datos de los dominios visual y del lenguaje durante la etapa de generación de argumentos. Una vez que se ha producido el argumento, se agrega a la entrada de lenguaje inicial en la etapa de inferencia de respuestas para crear la entrada de lenguaje para la siguiente etapa. Luego, se proporcionan los datos actualizados al modelo y se entrena para producir el resultado deseado. Un modelo basado en transformadores que realiza tres funciones principales (codificación, interacción y decodificación) proporciona la base del modelo subyacente. En resumen, se suministra el texto del lenguaje a un codificador Transformer para crear una representación textual. Esta representación textual se combina luego con la representación visual y se alimenta al decodificador Transformer.

Para evaluar la efectividad de su método, los investigadores realizaron numerosas pruebas en el conjunto de datos de referencia ScienceQA, un conjunto de datos multimodal de preguntas científicas que contiene más de 21k preguntas de opción múltiple multimodales con respuestas anotadas. Los investigadores concluyeron que su enfoque supera al modelo GPT-3.5, el más avanzado hasta el momento, en un 16% en el conjunto de datos de referencia. En pocas palabras, los investigadores de Amazon investigaron y resolvieron el problema de obtener razonamiento Multimodal-CoT presentando un marco de dos etapas mediante el ajuste fino de modelos de lenguaje para combinar representaciones visuales y del lenguaje para ejecutar Multimodal-CoT. El modelo, por lo tanto, genera argumentos informativos para facilitar la inferencia de respuestas finales. El repositorio de GitHub para el modelo se puede acceder a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Equipo respaldado por la ONU escanea sitios históricos de Ucrania para preservarlos en medio de la guerra.

Dos ingenieros respaldados por las Naciones Unidas están utilizando tecnología avanzada de escaneo láser para preserv...

Inteligencia Artificial

La actualización de Super Resolución de Video NVIDIA RTX mejora la calidad del video, preserva los detalles y se expande a las GPU de la serie GeForce RTX 20'.

NVIDIA anunció hoy una actualización de RTX Video Super Resolution (VSR) que ofrece una mayor fidelidad gráfica gener...