Este artículo de IA presenta LLaVA-Plus un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes

Ampliando las capacidades de los modelos multimodales grandes Presentamos LLaVA-Plus, un asistente multimodal de propósito general impulsado por IA

Crear asistentes de propósito general que puedan llevar a cabo eficientemente diversas actividades del mundo real siguiendo las instrucciones de los usuarios (multimodales) ha sido desde hace mucho tiempo un objetivo en inteligencia artificial. Recientemente, este campo ha despertado un mayor interés en la creación de modelos de base con entendimiento multimodal emergente y habilidades generativas en desafíos del mundo abierto. A pesar de la efectividad de emplear modelos de lenguaje grandes (LLM), como ChatGPT, para producir asistentes de propósito general para tareas de lenguaje natural, todavía se necesita descubrir cómo crear asistentes multimodales de propósito general para actividades de visión por computadora y visión-lenguaje.

Los esfuerzos actuales dirigidos a la creación de agentes multimodales pueden dividirse generalmente en dos grupos:

(i) Entrenamiento de extremo a extremo utilizando LLMs, en el cual se crean sucesiones de modelos multimodales grandes (LMM) mediante el entrenamiento continuo de LLMs para aprender a interpretar información visual utilizando datos de imagen-texto y de seguimiento de instrucciones multimodales. Modelos con código abierto como LLaVA y MiniGPT-4, así como modelos privados como Flamingo y GPT-4 multimodal, han demostrado un impresionante entendimiento visual y habilidades de razonamiento. Si bien estos enfoques de entrenamiento de extremo a extremo funcionan bien para ayudar a los LMM a adquirir habilidades emergentes (como el aprendizaje en contexto), crear una arquitectura cohesiva que pueda integrar de manera fluida una amplia gama de habilidades, como segmentación y generación de imágenes, que son esenciales para aplicaciones multimodales en el mundo real, sigue siendo una tarea difícil.

(ii) Encadenamiento de herramientas con LLMs, en el cual se diseñan cuidadosamente las indicaciones para permitir que los LLMs utilicen diversas herramientas (como modelos de visión que ya han sido entrenados) para realizar tareas deseadas, sin necesidad de un entrenamiento adicional del modelo. VisProg, ViperGPT, Visual ChatGPT, X-GPT y MM-REACT son trabajos conocidos en este campo. La fortaleza de estos enfoques radica en su capacidad para manejar una amplia variedad de tareas visuales utilizando herramientas (nuevas) que se pueden desarrollar de forma económica e integrar en un agente de IA. Sin embargo, se necesitan que las indicaciones sean más flexibles y confiables para permitir que los agentes multimodales elijan y activen de manera confiable las herramientas adecuadas (de un conjunto amplio y variado de herramientas) y compongan sus resultados para proporcionar soluciones finales para tareas multimodales en el mundo real en movimiento.

Figura 1: Representación gráfica de las posibilidades de LLaVA-Plus posibles a través de la adquisición de habilidades.

Investigadores de la Universidad de Tsinghua, Microsoft Research, Universidad de Wisconsin-Madison, HKUST e IDEA Research en este artículo presentan LLaVA-Plus (Grandes asistentes de lenguaje y visión que se enchufan y aprenden a usar habilidades), un asistente multimodal con una amplia gama de aplicaciones que adquiere habilidades de uso de herramientas a través de una metodología de entrenamiento de extremo a extremo que mejora sistemáticamente las capacidades de los LMMs mediante ajustes visuales en las instrucciones. Hasta su conocimiento, este es el primer intento documentado de combinar las ventajas de las técnicas de encadenamiento de herramientas y entrenamiento de extremo a extremo previamente descritas. El repositorio de habilidades que viene con LLaVA-Plus tiene una amplia selección de herramientas visuales y de visión-lenguaje. El diseño es un ejemplo de la teoría de la “Society of Mind” (sociedad de la mente), en la que se crean herramientas individuales para ciertas tareas y tienen un uso limitado por sí mismas; no obstante, cuando estas herramientas se combinan, proporcionan habilidades emergentes que demuestran una mayor inteligencia.

Por ejemplo, dadas las entradas multimodales de los usuarios, LLaVA-Plus puede crear instantáneamente un nuevo flujo de trabajo, elegir y activar herramientas pertinentes de la biblioteca de habilidades y ensamblar los resultados de su ejecución para completar diversas tareas del mundo real que no son visibles durante el entrenamiento del modelo. A través de los ajustes de instrucciones, LLaVA-Plus puede mejorarse con el tiempo mediante la adición de capacidades o instrumentos adicionales. Considere una nueva herramienta multimodal creada para un caso de uso o habilidad específica. Para construir datos de seguimiento de instrucciones, recopilan instrucciones relevantes de los usuarios que requieren esta herramienta junto con sus resultados de ejecución o los resultados que siguen. Después de los ajustes de instrucciones, LLaVA-Plus adquiere más capacidades a medida que aprende a usar esta nueva herramienta para realizar tareas anteriormente imposibles.

Además, LLaVA-Plus se aparta de estudios anteriores sobre entrenamiento en el uso de herramientas para LLMs al utilizar exclusivamente señales visuales en conjunto con herramientas multimodales. Por otro lado, LLaVA-Plus mejora la capacidad de planificación y razonamiento de LMM al utilizar señales visuales sin procesar en todas las sesiones de contacto humano-AI. En resumen, las contribuciones de su artículo son las siguientes:

• Uso de datos para una nueva herramienta multimodal de seguimiento de instrucciones. Utilizando ChatGPT y GPT-4 como herramientas de etiquetado, describen una nueva metodología para seleccionar datos de seguimiento de instrucciones visuales y de lenguaje que se pretende utilizar como herramienta en sesiones de interacción humano-AI.

• Un nuevo asistente multimodal amplio. Han creado LLaVA-Plus, un asistente multimodal con una amplia gama de usos que amplía LLaVA al integrar una extensa y variada colección de herramientas externas que se pueden seleccionar, ensamblar y utilizar rápidamente para completar tareas. La Figura 1 ilustra cómo LLaVA-Plus amplía enormemente las posibilidades de LMM. Su investigación empírica verifica la eficacia de LLaVA-Plus al mostrar resultados consistentemente mejores en varios puntos de referencia, especialmente el nuevo SoTA en VisiT-Bench con una amplia variedad de actividades del mundo real.

• Libre de código fuente. Los materiales que pondrán a disposición del público son los datos de instrucciones multimodales producidos, la base de código, los puntos de control de LLaVA-Plus y una demostración de chat visual.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Google presentan 𝗦𝘆𝗻𝘁𝗵𝗜𝗗 una herramienta digital para marcar con marcas de agua e identificar imágenes generadas por IA

En el panorama en constante evolución de la inteligencia artificial (IA), los modelos generativos están creando imáge...

Inteligencia Artificial

Meta presenta Emu Video y Emu Edit Avances pioneros en la generación de videos a partir de texto y en la edición precisa de imágenes.

“`html En el campo en constante evolución de la IA generativa, persisten desafíos para lograr modelos eficiente...

Inteligencia Artificial

Desbloqueando la transparencia de la IA Cómo el agrupamiento de características de Anthropic mejora la interpretabilidad de las redes neuronales

En un reciente artículo, “Hacia la monosemanticidad: descomposición de modelos de lenguaje con aprendizaje de d...

Inteligencia Artificial

Microsoft Research lanza el 'Cuarteto de Heavy Metal' de los compiladores de IA Rammer, Roller, Welder y Grinder

La evolución de los modelos de inteligencia artificial (IA) y los aceleradores de hardware ha traído desafíos únicos ...

Ciencias de la Computación

Los Taxis Dron hacen su primera prueba en Israel.

Israel ha comenzado vuelos de prueba de aeronaves autónomas para carga pesada, y eventualmente para transporte de pas...