Una nueva investigación de IA presenta GPT4RoI un modelo de visión y lenguaje basado en la sintonización de instrucciones de un Gran Modelo de Lenguaje (LLM) en pares de región-texto.

Nueva investigación de IA presenta GPT4RoI, un modelo de visión y lenguaje basado en la sintonización de instrucciones de un Gran Modelo de Lenguaje (LLM) en pares de región-texto.

Los modelos de lenguaje grandes (LLM) han avanzado mucho recientemente, demostrando un rendimiento sorprendente en tareas de procesamiento de lenguaje natural que requieren conversación. Ejemplos incluyen los productos comerciales ChatGPT, Claude, Bard, GPT-4 solo texto y las comunidades de código abierto LLama, Alpaca, Vicuna, ChatGLM, MOSS, etc. Gracias a sus poderes sin precedentes, proporcionan una ruta potencial hacia modelos de inteligencia artificial de propósito general. Como resultado de la eficacia de LLM, la comunidad de modelado multimodal está creando un nuevo camino tecnológico para usar LLM como la interfaz universal para crear modelos de propósito general, donde el espacio de características de un trabajo dado se ajusta al espacio de características de los modelos de lenguaje pre-entrenados.

Los modelos de visión y lenguaje, como MiniGPT-4, LLaVA, LLaMA-Adapter, InstructBLIP, etc., alinean el codificador de visión a LLM mediante ajuste de instrucciones en combinaciones de imágenes y texto como una de las tareas representativas. La calidad de la alineación impacta significativamente en qué medida los modelos de visión y lenguaje se desempeñan bajo el concepto de ajuste de instrucciones. Aunque estos trabajos tienen habilidades multimodales excelentes, su alineación a nivel de región les impide avanzar más allá de tareas de comprensión más complejas como la descripción de regiones y el razonamiento. Sus alineaciones son exclusivamente en combinaciones de imágenes y texto. Algunos estudios utilizan modelos de visión externos como MM-REACT, InternGPT y DetGPT para proporcionar comprensión a nivel de región en modelos de visión y lenguaje.

Sin embargo, su diseño no es de extremo a extremo y podría ser mejor para modelos multimodales de propósito general. Este trabajo tiene como objetivo desarrollar un modelo de visión y lenguaje desde el principio hasta el final que proporcione una comprensión detallada de la región de interés. El diseño principal de los modelos de visión y lenguaje a nivel de imagen es establecer el cuadro del objeto como el formato de instrucción espacial, ya que la arquitectura del modelo en estos modelos comprime la imagen completa como la incrustación de imagen sin ninguna operación para referirse a partes específicas. Para obtener la respuesta, LLM se le proporciona los elementos visuales extraídos mediante la enseñanza espacial y la instrucción lingüística. Por ejemplo, el modelo sustituirá con la característica del área a la que se refiere la instrucción espacial cuando la consulta sea la secuencia entrelazada de “¿Qué está haciendo esto?”

RoIAlign o Atención deformable son dos métodos de implementación flexibles para la instrucción espacial. Actualizan los datos de entrenamiento de conjuntos de datos de imágenes y texto a conjuntos de datos de región y texto, donde se suministra la descripción del cuadro delimitador y el texto de cada elemento para construir una alineación detallada entre las combinaciones de región y texto. Los conjuntos de datos de acceso público, como la identificación de objetos COCO, RefCOCO, RefCOCO+, RefCOCOg, entidades de Flickr30K, Visual Genome (VG) y Razonamiento de Sentido Común Visual (VCR), se combinan. Estos conjuntos de datos se modifican a un formato para ajuste de instrucciones. Además, se pueden utilizar detectores de objetos disponibles comercialmente para extraer cuadros delimitadores de objetos de las imágenes y utilizarlos como instrucción espacial, de modo que se pueda aprovechar datos de entrenamiento de imágenes y texto, como LLaVA150K, para la enseñanza espacial. Su modelo se mejora en se utiliza para pre-entrenar el extractor de características regionales sin afectar a LLM.

Su modelo se mejora en cuanto a calidad conversacional y genera respuestas más similares a las humanas como resultado de aprender de estos conjuntos de datos de imágenes y texto seleccionados cuidadosamente para ajuste de instrucciones visuales. Según la longitud del texto, los conjuntos de datos recopilados se dividen en dos tipos. Primero, los datos de texto corto incluyen información sobre categorías de elementos y características básicas. Sin afectar a LLM, se utiliza para pre-entrenar el extractor de características de región. Segundo, los textos más largos suelen incluir ideas complicadas o requieren pensamiento lógico. Se proporcionan instrucciones espaciales complejas para estos datos para permitir el ajuste fino de extremo a extremo del extractor de características de área y LLM, simulando instrucciones de usuario flexibles en uso real. Su enfoque, que se beneficia del ajuste de instrucciones espaciales, ofrece al usuario de los modelos de visión y lenguaje una experiencia interactiva única en la que el usuario puede comunicar la consulta al modelo tanto en forma de lenguaje como en forma de instrucción espacial.

La Figura 1 ilustra cómo esto resulta en nuevas habilidades que van más allá de la comprensión a nivel de imagen, como el razonamiento de áreas complicadas y la descripción de regiones. En conclusión, su trabajo contribuye a lo siguiente:

• Al dar entrenamiento de LLM en conjuntos de datos de texto regional, avanzan en modelos de visión y lenguaje a nivel de región. Su modelo se ha construido con capacidades adicionales, como descripción de regiones y razonamiento, en comparación con modelos anteriores a nivel de imagen.

• Para obtener una respuesta, introducen la instrucción espacial para referirse a la región de interés y se suministran las características de la región recuperadas del codificador visual a LLM junto con la instrucción de lenguaje.

• El código, el formato de ajuste de instrucciones de los conjuntos de datos y la demostración en línea están disponibles en GitHub.

Figura 1: Se ha creado un modelo de visión y lenguaje llamado GPT4RoI basado en modelos de lenguaje grandes (LLMs) ajustados a través de instrucciones en combinaciones de regiones y textos. Es capaz de analizar instrucciones de usuario que combinan información verbal y de ubicación en una sola región. Se logran tareas de comprensión multimodal detallada, como la descripción de regiones y el razonamiento.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Bucle de Retroalimentación de la IA Manteniendo la Calidad de Producción del Modelo en la Era del Contenido Generado por IA

Explora cómo el bucle de retroalimentación de IA puede ayudar a mantener la calidad del modelo, mejorar la eficiencia...

Inteligencia Artificial

6 Mitos sobre la Inteligencia Artificial Desacreditados Separando la Realidad de la Ficción

Descubre la verdad detrás de los mitos populares de la IA y sumérgete en las auténticas capacidades e impacto de la I...

Inteligencia Artificial

Google AI presenta MetNet-3 Revolucionando la predicción del tiempo con modelos de redes neuronales

La predicción del tiempo representa un aspecto complejo y crucial de la investigación meteorológica, ya que predecir ...

Inteligencia Artificial

Investigadores de Stanford y Microsoft presentan Inteligencia Artificial de Auto-Mejora Aprovechando GPT-4 para elevar el rendimiento del programa de andamiaje.

Casi todos los objetivos descritos en lenguaje natural pueden optimizarse mediante la consulta a un modelo de lenguaj...