Este artículo de IA de China presenta ‘Monkey’ Un nuevo enfoque de inteligencia artificial para mejorar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Presentando 'Monkey' un novedoso enfoque de Inteligencia Artificial en China para potenciar la resolución de entrada y la asociación contextual en grandes modelos multimodales.

Los modelos multimodales grandes están ganando popularidad debido a su capacidad para manejar y analizar diversos datos, incluyendo texto e imágenes. Los académicos han notado su conocimiento en diversas actividades multimodales, como el etiquetado de imágenes, la respuesta a preguntas visuales y más. Modelos de última generación como LLaVA, MiniGPT4, mPLUG-Owl y Qwen-VL son ejemplos de un rápido progreso en este campo. Sin embargo, hay varios obstáculos que superar, especialmente al lidiar con escenarios complejos, debido a la amplia gama de resoluciones de imagen y la necesidad de una mayor calidad de los datos de entrenamiento. El codificador de imágenes se ha mejorado y se han utilizado grandes conjuntos de datos para aumentar la resolución de entrada y superar estas dificultades. 

Además, LLaVA es innovador al extender la adaptación de instrucciones a situaciones multimodales fusionando datos de seguimiento de instrucciones multimodales. A pesar de estos avances, estas técnicas frecuentemente necesitan ayuda para gestionar tamaños de entrada de imágenes de manera sostenible y costos de entrenamiento sustanciales. La necesidad de descripciones de imágenes más complejas para entender las sutilezas de las conexiones entre imagen y texto aumenta a medida que los conjuntos de datos se vuelven más grandes, una condición que debe ser cumplida por las breves descripciones de una sola oración que se encuentran en conjuntos de datos como COYO y LAION. Impulsados por estas limitaciones, los investigadores de la Universidad de Ciencia y Tecnología de Huazhong y Kingsoft presentan una técnica eficiente en recursos para aumentar la resolución de entrada en el contexto del paradigma LMM llamada Monkey. Al aprovechar LMMs preexistentes, el equipo de investigación evita el proceso de preentrenamiento que consume mucho tiempo, gracias a la abundancia de trabajos de código abierto excelentes. 

El equipo de investigación sugiere un módulo sencillo pero eficiente que utiliza un enfoque de ventana deslizante para dividir imágenes de alta resolución en porciones localizadas más manejables. Un codificador visual estático, varias modificaciones de LoRA y un remuestreador visual entrenable codifican cada parche individualmente. Luego, el decodificador de lenguaje recibe las codificaciones de estos parches y la codificación global de la imagen para una mejor comprensión de la imagen. También hemos creado una técnica que combina señales de múltiples generadores, como BLIP2, PPOCR, GRIT, SAM y ChatGPT OpenAI, para proporcionar datos de leyendas abundantes y de alta calidad.

En primer lugar, la tarea de leyendas de imágenes del modelo puede describir con precisión casi todos los aspectos de la imagen, incluyendo los diferentes accesorios del atleta y la bandera roja en el fondo, sin errores ni omisiones. La bolsa marrón en la leyenda se destaca en la descripción del modelo, aunque puede que no sea evidente de inmediato sin un examen detallado de la imagen. Esta pequeña pista permite al modelo sacar conclusiones lógicas, incluso si no se puede verificar con confianza. Esto muestra la capacidad del modelo para prestar atención a pequeños detalles y proporcionar descripciones lógicas y precisas. Además de ofrecer una explicación detallada de lo visual, el modelo también distingue entre los muchos idiomas y las señales que les corresponden. 

A partir de esta información, se puede predecir razonablemente la utilidad de la fotografía por Monkey. Incluso si falta la “e” en la marca de agua de la imagen, “life quotes Tumblr”, el modelo puede responder a una pregunta al respecto en la tarea de preguntas y respuestas. Esto demuestra que su modelo puede leer texto pequeño en fotos con mayor resolución después del entrenamiento. La capacidad del modelo para leer datos de gráficos e identificar la respuesta correcta entre material textual denso sin distraerse con texto irrelevante se demuestra cuando responde correctamente a la pregunta sobre la fecha “6 de octubre de 1966”. Este fenómeno muestra que el modelo puede representar correctamente la alineación de un texto dado con su objetivo correspondiente. Además, demuestra la capacidad del modelo para identificar con precisión la respuesta a una consulta incluso en textos densos y borrosos, resaltando la relevancia del modelo para el objetivo y su capacidad de conocimiento global. 

Los beneficios de Monkey se resumen de la siguiente manera:

1. Asociaciones dentro del contexto. Al presentar una estrategia multinivel para producir descripciones, el equipo de investigación mejora la capacidad del modelo para comprender las relaciones entre varios objetivos y explorar de manera más efectiva el conocimiento común al crear descripciones de texto. Esto conduce a la producción de hallazgos más perspicaces y completos. 

2. Sin preentrenamiento, admite resoluciones de hasta 1344 x 896. Por encima de la resolución de 448 x 448 que se usa habitualmente para los LMMs, esta gran resolución aumenta la capacidad para identificar y comprender objetos y texto pequeños o densamente empaquetados. 

3. Mejoras en el rendimiento en varios conjuntos de datos de evaluación. Su modelo Monkey tuvo un rendimiento competitivo en tareas como la descripción de imágenes, la respuesta a preguntas generales sobre imágenes, la respuesta a preguntas centradas en texto de escena y la respuesta a preguntas visuales orientadas a documentos como resultado de ser probado en 16 conjuntos de datos diferentes.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Microsoft y OpenAI chocan por la integración de la inteligencia artificial.

En un enfrentamiento entre los titanes de la IA, Microsoft y OpenAI se encuentran en desacuerdo sobre la integración ...

Noticias de Inteligencia Artificial

Después de Amazon, una ambición por acelerar la fabricación estadounidense.

Jeff Wilke SM '93, ex CEO del negocio de Consumidores Mundiales de Amazon, lleva su estrategia de LGO a su nueva misi...

Inteligencia Artificial

Web LLM Trae los Chatbots de LLM al Navegador.

¿No sería genial si pudieras ejecutar LLMs y chatbots de LLM de forma nativa en tu navegador? Aprendamos más sobre el...

Inteligencia Artificial

Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de...

Inteligencia Artificial

Dentro del acalorado centro del pesimismo de la IA

Anthropic, una start-up de inteligencia artificial centrada en la seguridad, está tratando de competir con ChatGPT mi...