Este artículo de IA de China presenta ‘Monkey’ Un nuevo enfoque de inteligencia artificial para mejorar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Presentando 'Monkey' un novedoso enfoque de Inteligencia Artificial en China para potenciar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Los modelos multimodales grandes están ganando popularidad debido a su capacidad para manejar y analizar diversos datos, incluyendo texto e imágenes. Los académicos han notado su conocimiento en diversas actividades multimodales, como el etiquetado de imágenes, la respuesta a preguntas visuales y más. Modelos de última generación como LLaVA, MiniGPT4, mPLUG-Owl y Qwen-VL son ejemplos de un rápido progreso en este campo. Sin embargo, hay varios obstáculos que superar, especialmente al lidiar con escenarios complejos, debido a la amplia gama de resoluciones de imagen y la necesidad de una mayor calidad de los datos de entrenamiento. El codificador de imágenes se ha mejorado y se han utilizado grandes conjuntos de datos para aumentar la resolución de entrada y superar estas dificultades.

Además, LLaVA es innovador al extender la adaptación de instrucciones a situaciones multimodales fusionando datos de seguimiento de instrucciones multimodales. A pesar de estos avances, estas técnicas frecuentemente necesitan ayuda para gestionar tamaños de entrada de imágenes de manera sostenible y costos de entrenamiento sustanciales. La necesidad de descripciones de imágenes más complejas para entender las sutilezas de las conexiones entre imagen y texto aumenta a medida que los conjuntos de datos se vuelven más grandes, una condición que debe ser cumplida por las breves descripciones de una sola oración que se encuentran en conjuntos de datos como COYO y LAION. Impulsados por estas limitaciones, los investigadores de la Universidad de Ciencia y Tecnología de Huazhong y Kingsoft presentan una técnica eficiente en recursos para aumentar la resolución de entrada en el contexto del paradigma LMM llamada Monkey. Al aprovechar LMMs preexistentes, el equipo de investigación evita el proceso de preentrenamiento que consume mucho tiempo, gracias a la abundancia de trabajos de código abierto excelentes.

El equipo de investigación sugiere un módulo sencillo pero eficiente que utiliza un enfoque de ventana deslizante para dividir imágenes de alta resolución en porciones localizadas más manejables. Un codificador visual estático, varias modificaciones de LoRA y un remuestreador visual entrenable codifican cada parche individualmente. Luego, el decodificador de lenguaje recibe las codificaciones de estos parches y la codificación global de la imagen para una mejor comprensión de la imagen. También hemos creado una técnica que combina señales de múltiples generadores, como BLIP2, PPOCR, GRIT, SAM y ChatGPT OpenAI, para proporcionar datos de leyendas abundantes y de alta calidad.

En primer lugar, la tarea de leyendas de imágenes del modelo puede describir con precisión casi todos los aspectos de la imagen, incluyendo los diferentes accesorios del atleta y la bandera roja en el fondo, sin errores ni omisiones. La bolsa marrón en la leyenda se destaca en la descripción del modelo, aunque puede que no sea evidente de inmediato sin un examen detallado de la imagen. Esta pequeña pista permite al modelo sacar conclusiones lógicas, incluso si no se puede verificar con confianza. Esto muestra la capacidad del modelo para prestar atención a pequeños detalles y proporcionar descripciones lógicas y precisas. Además de ofrecer una explicación detallada de lo visual, el modelo también distingue entre los muchos idiomas y las señales que les corresponden.

A partir de esta información, se puede predecir razonablemente la utilidad de la fotografía por Monkey. Incluso si falta la “e” en la marca de agua de la imagen, “life quotes Tumblr”, el modelo puede responder a una pregunta al respecto en la tarea de preguntas y respuestas. Esto demuestra que su modelo puede leer texto pequeño en fotos con mayor resolución después del entrenamiento. La capacidad del modelo para leer datos de gráficos e identificar la respuesta correcta entre material textual denso sin distraerse con texto irrelevante se demuestra cuando responde correctamente a la pregunta sobre la fecha “6 de octubre de 1966”. Este fenómeno muestra que el modelo puede representar correctamente la alineación de un texto dado con su objetivo correspondiente. Además, demuestra la capacidad del modelo para identificar con precisión la respuesta a una consulta incluso en textos densos y borrosos, resaltando la relevancia del modelo para el objetivo y su capacidad de conocimiento global.

Los beneficios de Monkey se resumen de la siguiente manera:

1. Asociaciones dentro del contexto. Al presentar una estrategia multinivel para producir descripciones, el equipo de investigación mejora la capacidad del modelo para comprender las relaciones entre varios objetivos y explorar de manera más efectiva el conocimiento común al crear descripciones de texto. Esto conduce a la producción de hallazgos más perspicaces y completos.

2. Sin preentrenamiento, admite resoluciones de hasta 1344 x 896. Por encima de la resolución de 448 x 448 que se usa habitualmente para los LMMs, esta gran resolución aumenta la capacidad para identificar y comprender objetos y texto pequeños o densamente empaquetados.

3. Mejoras en el rendimiento en varios conjuntos de datos de evaluación. Su modelo Monkey tuvo un rendimiento competitivo en tareas como la descripción de imágenes, la respuesta a preguntas generales sobre imágenes, la respuesta a preguntas centradas en texto de escena y la respuesta a preguntas visuales orientadas a documentos como resultado de ser probado en 16 conjuntos de datos diferentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Este artículo de IA de China presenta ‘Monkey’ Un nuevo enfoque de inteligencia artificial para mejorar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Was this article helpful?

Python Type Hinting con Literal

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Inteligencia Artificial

Conoce a KITE Un marco de inteligencia artificial para la manipulación semántica utilizando puntos clave como representación para el enlace visual y la inferencia precisa de acciones.

Microsoft y OpenAI chocan por la integración de la inteligencia artificial.

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Web LLM Trae los Chatbots de LLM al Navegador.

Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

Dentro del acalorado centro del pesimismo de la IA