Este artículo de IA presenta LLaVA-Plus un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes
Ampliando las capacidades de los modelos multimodales grandes Presentamos LLaVA-Plus, un asistente multimodal de propósito general impulsado por IA
Crear asistentes de propósito general que puedan llevar a cabo eficientemente diversas actividades del mundo real siguiendo las instrucciones de los usuarios (multimodales) ha sido desde hace mucho tiempo un objetivo en inteligencia artificial. Recientemente, este campo ha despertado un mayor interés en la creación de modelos de base con entendimiento multimodal emergente y habilidades generativas en desafíos del mundo abierto. A pesar de la efectividad de emplear modelos de lenguaje grandes (LLM), como ChatGPT, para producir asistentes de propósito general para tareas de lenguaje natural, todavía se necesita descubrir cómo crear asistentes multimodales de propósito general para actividades de visión por computadora y visión-lenguaje.
Los esfuerzos actuales dirigidos a la creación de agentes multimodales pueden dividirse generalmente en dos grupos:
(i) Entrenamiento de extremo a extremo utilizando LLMs, en el cual se crean sucesiones de modelos multimodales grandes (LMM) mediante el entrenamiento continuo de LLMs para aprender a interpretar información visual utilizando datos de imagen-texto y de seguimiento de instrucciones multimodales. Modelos con código abierto como LLaVA y MiniGPT-4, así como modelos privados como Flamingo y GPT-4 multimodal, han demostrado un impresionante entendimiento visual y habilidades de razonamiento. Si bien estos enfoques de entrenamiento de extremo a extremo funcionan bien para ayudar a los LMM a adquirir habilidades emergentes (como el aprendizaje en contexto), crear una arquitectura cohesiva que pueda integrar de manera fluida una amplia gama de habilidades, como segmentación y generación de imágenes, que son esenciales para aplicaciones multimodales en el mundo real, sigue siendo una tarea difícil.
- Navegando el desafío cartográfico a medio camino del #30DayMapChallenge
- Explicación de la Atención de Múltiples Consultas
- Revisión del Creador de Colossyan ¿El Mejor Generador de Videos de IA?
(ii) Encadenamiento de herramientas con LLMs, en el cual se diseñan cuidadosamente las indicaciones para permitir que los LLMs utilicen diversas herramientas (como modelos de visión que ya han sido entrenados) para realizar tareas deseadas, sin necesidad de un entrenamiento adicional del modelo. VisProg, ViperGPT, Visual ChatGPT, X-GPT y MM-REACT son trabajos conocidos en este campo. La fortaleza de estos enfoques radica en su capacidad para manejar una amplia variedad de tareas visuales utilizando herramientas (nuevas) que se pueden desarrollar de forma económica e integrar en un agente de IA. Sin embargo, se necesitan que las indicaciones sean más flexibles y confiables para permitir que los agentes multimodales elijan y activen de manera confiable las herramientas adecuadas (de un conjunto amplio y variado de herramientas) y compongan sus resultados para proporcionar soluciones finales para tareas multimodales en el mundo real en movimiento.
Figura 1: Representación gráfica de las posibilidades de LLaVA-Plus posibles a través de la adquisición de habilidades.
Investigadores de la Universidad de Tsinghua, Microsoft Research, Universidad de Wisconsin-Madison, HKUST e IDEA Research en este artículo presentan LLaVA-Plus (Grandes asistentes de lenguaje y visión que se enchufan y aprenden a usar habilidades), un asistente multimodal con una amplia gama de aplicaciones que adquiere habilidades de uso de herramientas a través de una metodología de entrenamiento de extremo a extremo que mejora sistemáticamente las capacidades de los LMMs mediante ajustes visuales en las instrucciones. Hasta su conocimiento, este es el primer intento documentado de combinar las ventajas de las técnicas de encadenamiento de herramientas y entrenamiento de extremo a extremo previamente descritas. El repositorio de habilidades que viene con LLaVA-Plus tiene una amplia selección de herramientas visuales y de visión-lenguaje. El diseño es un ejemplo de la teoría de la “Society of Mind” (sociedad de la mente), en la que se crean herramientas individuales para ciertas tareas y tienen un uso limitado por sí mismas; no obstante, cuando estas herramientas se combinan, proporcionan habilidades emergentes que demuestran una mayor inteligencia.
Por ejemplo, dadas las entradas multimodales de los usuarios, LLaVA-Plus puede crear instantáneamente un nuevo flujo de trabajo, elegir y activar herramientas pertinentes de la biblioteca de habilidades y ensamblar los resultados de su ejecución para completar diversas tareas del mundo real que no son visibles durante el entrenamiento del modelo. A través de los ajustes de instrucciones, LLaVA-Plus puede mejorarse con el tiempo mediante la adición de capacidades o instrumentos adicionales. Considere una nueva herramienta multimodal creada para un caso de uso o habilidad específica. Para construir datos de seguimiento de instrucciones, recopilan instrucciones relevantes de los usuarios que requieren esta herramienta junto con sus resultados de ejecución o los resultados que siguen. Después de los ajustes de instrucciones, LLaVA-Plus adquiere más capacidades a medida que aprende a usar esta nueva herramienta para realizar tareas anteriormente imposibles.
Además, LLaVA-Plus se aparta de estudios anteriores sobre entrenamiento en el uso de herramientas para LLMs al utilizar exclusivamente señales visuales en conjunto con herramientas multimodales. Por otro lado, LLaVA-Plus mejora la capacidad de planificación y razonamiento de LMM al utilizar señales visuales sin procesar en todas las sesiones de contacto humano-AI. En resumen, las contribuciones de su artículo son las siguientes:
• Uso de datos para una nueva herramienta multimodal de seguimiento de instrucciones. Utilizando ChatGPT y GPT-4 como herramientas de etiquetado, describen una nueva metodología para seleccionar datos de seguimiento de instrucciones visuales y de lenguaje que se pretende utilizar como herramienta en sesiones de interacción humano-AI.
• Un nuevo asistente multimodal amplio. Han creado LLaVA-Plus, un asistente multimodal con una amplia gama de usos que amplía LLaVA al integrar una extensa y variada colección de herramientas externas que se pueden seleccionar, ensamblar y utilizar rápidamente para completar tareas. La Figura 1 ilustra cómo LLaVA-Plus amplía enormemente las posibilidades de LMM. Su investigación empírica verifica la eficacia de LLaVA-Plus al mostrar resultados consistentemente mejores en varios puntos de referencia, especialmente el nuevo SoTA en VisiT-Bench con una amplia variedad de actividades del mundo real.
• Libre de código fuente. Los materiales que pondrán a disposición del público son los datos de instrucciones multimodales producidos, la base de código, los puntos de control de LLaVA-Plus y una demostración de chat visual.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Métodos para modelar el valor de por vida del cliente Las cosas buenas y las trampas
- 10 Formas en las que la Inteligencia Artificial está dando forma al Desarrollo Seguro de Aplicaciones
- Nuevas Fronteras en la IA Generativa – Lejos de la Nube
- Integrando ChatGPT con ReactJS Una Guía Completa
- Guía de un ingeniero de Microsoft para la innovación y el liderazgo en Inteligencia Artificial
- Meet mPLUG-Owl2 un modelo de base multilingüe multimodal que transforma los modelos de lenguaje multilingües multimodales (MLLM) mediante la colaboración de modalidades.
- Tendencias de Carreras en IA Lo más popular en el mundo de la Inteligencia Artificial