Este documento de IA presenta técnicas avanzadas para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Presentación avanzada de técnicas de IA para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Los modelos de alineación de texto e imagen tienen como objetivo establecer una conexión significativa entre el contenido visual y la información textual, lo que permite aplicaciones como la descripción de imágenes, la recuperación y la comprensión. A veces, combinar texto e imágenes al transmitir información puede ser una herramienta potente. Sin embargo, alinearlos correctamente puede ser un desafío. Las desalineaciones pueden generar confusión y malentendidos, por lo que es importante detectarlas. Investigadores de la Universidad de Tel Aviv, Google Research y la Universidad Hebrea de Jerusalén han desarrollado un nuevo enfoque para ver y explicar las desalineaciones entre descripciones textuales y sus imágenes correspondientes.

Los modelos generativos de texto a imagen (T2I), que pasan de los basados en GAN a los modelos de transformadores visuales y de difusión, enfrentan desafíos para capturar con precisión las correspondencias T2I complicadas. Si bien los modelos de visión y lenguaje como GPT han transformado varios dominios, se centran principalmente en el texto, lo que limita su efectividad en las tareas de visión y lenguaje. Los avances en la combinación de componentes visuales con modelos de lenguaje tienen como objetivo mejorar la comprensión del contenido visual a través de descripciones textuales. La evaluación automática tradicional de T2I se basa en métricas como FID y Inception Score, que requieren comentarios más detallados sobre las desalineaciones, una brecha que aborda el método propuesto. Estudios recientes introducen la evaluación explicable de imagen-texto, generando pares de preguntas y respuestas y utilizando la Respuesta Visual a Preguntas (VQA) para analizar desalineaciones específicas.

El estudio presenta un método que predice y explica desalineaciones en modelos generativos de texto-imagen existentes. Construye un conjunto de entrenamiento, Retroalimentación Textual y Visual, para entrenar un modelo de evaluación de alineación. El enfoque propuesto tiene como objetivo generar directamente explicaciones de las discrepancias entre imagen y texto sin depender de tuberías de preguntas y respuestas.

Los investigadores utilizaron modelos de lenguaje y visuales para crear un conjunto de entrenamiento para subtítulos desalineados, explicaciones correspondientes e indicadores visuales. Ajustaron modelos de lenguaje visual en este conjunto, lo que condujo a una mejor alineación de imagen y texto. También realizaron un estudio de ablación y se refirieron a estudios recientes que utilizan VQA en imágenes para generar pares de preguntas y respuestas a partir de texto, proporcionando información sobre desalineaciones específicas.

Los modelos de lenguaje visual ajustados, entrenados en el conjunto de retroalimentación de TV del método propuesto, muestran un rendimiento superior en la clasificación de alineación binaria y en las tareas de generación de explicaciones. Estos modelos articulan e indican visualmente las desalineaciones en pares de texto e imagen, proporcionando explicaciones textuales y visuales detalladas. Si bien los modelos PaLI superan a los modelos no PaLI en la clasificación de alineación binaria, los modelos PaLI más pequeños destacan en el conjunto de pruebas de distribución pero tienen un rendimiento inferior en ejemplos de fuera de la distribución. El método muestra una mejora sustancial en las tareas de retroalimentación textual, con planes en curso para mejorar la eficiencia de la multitarea en trabajos futuros.

En conclusión, las principales conclusiones del estudio se pueden resumir en unos pocos puntos:

ConGen-Feedback es un método de generación de datos centrado en la retroalimentación que puede producir subtítulos contradictorios y explicaciones textuales y visuales correspondientes a las desalineaciones.
La técnica se basa en modelos de lenguaje y de fundamentación gráfica amplios para construir un conjunto de entrenamiento completo de retroalimentación de TV, que luego se utiliza para facilitar el entrenamiento de modelos que superan a los puntos de referencia en la clasificación de alineación binaria y en la generación de explicaciones.
El método propuesto puede generar directamente explicaciones de las discrepancias entre imagen y texto, eliminando la necesidad de tuberías de preguntas y respuestas o de descomponer la tarea de evaluación.
La evaluación humanamente anotada desarrollada por SeeTRUE-Feedback mejora aún más la precisión y el rendimiento de los modelos entrenados utilizando ConGen-Feedback.
En general, ConGen-Feedback tiene el potencial de revolucionar el campo de PLN y la visión por computadora al proporcionar un mecanismo efectivo y eficiente para generar datos y explicaciones centrados en la retroalimentación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Este documento de IA presenta técnicas avanzadas para explicaciones detalladas de texto y visual en modelos de alineación de imágenes y texto.

Was this article helpful?

Investigadores de la Universidad de Indiana presentan ‘Brainoware’ una tecnología de inteligencia artificial de vanguardia inspirada en organoides cerebrales y chips de silicio.

Indian Startup lanza OpenHathi el primer LLM en hindi de la historia

Inteligencia Artificial

Los Taxis Dron hacen su primera prueba en Israel.

Introducción al Aprendizaje Automático Explorando sus muchas formas

Conoce a WebAgent el nuevo LLM de DeepMind que sigue instrucciones y completa tareas en sitios web

Traje de Realidad Virtual podría ayudarte a 'sentir' cosas en el Metaverso.

Genera publicidad creativa utilizando inteligencia artificial generativa implementada en Amazon SageMaker

Esta revisión de investigación de IA explora la integración de imágenes satelitales y aprendizaje profundo para medir la pobreza basada en activos.