Investigadores de China presentan ImageBind-LLM un método de ajuste de instrucciones de múltiples modalidades de modelos de lenguaje grandes (LLMs) a través de ImageBind.

Investigadores de China presentan ImageBind-LLM, un método de ajuste de instrucciones de múltiples modalidades de LLMs a través de ImageBind.

Investigadores han observado recientemente mejoras significativas en la sintonización de instrucciones de modelos de lenguaje grandes (LLMs, por sus siglas en inglés). ChatGPT y GPT-4 son sistemas de conversación de propósito general que obedecen comandos humanos en lenguaje y visuales. Sin embargo, todavía no se pueden replicar debido a la limitación de código cerrado. Alpaca, LLaMAAdapter y otros esfuerzos similares ofrecen modificar el LLaMA de acceso público en modelos de instrucción en lenguaje utilizando datos autogenerados como respuesta a esto. LLaVA, LLaMA-Adapter y otros integran capacidades de comprensión visual en LLMs para generación condicionada por imágenes para lograr la adaptación de instrucciones de imágenes.

A pesar del éxito de las técnicas actuales de sintonización de instrucciones, se necesita más para crear un LLM para instrucciones de multimodalidad amplia, como texto, imagen, audio, nubes de puntos 3D y video. Los autores de este estudio del Laboratorio de Inteligencia Artificial de Shanghai, CUHK MMLab y vivo AI Lab presentan el modelo de seguimiento de instrucciones de multimodalidad ImageBind-LLM, que ajusta eficazmente LLaMA bajo la dirección del espacio de incrustación conjunta en el ImageBind preentrenado. Como se muestra en la Figura 1, su ImageBind-LLM (b) puede responder a instrucciones de entrada de numerosas modalidades además de imágenes, a diferencia de modelos de instrucción visual anteriores (a), demostrando una prometedora capacidad de extensibilidad y generalización.

Específicamente, proponen usar únicamente los datos de visión y lenguaje para ajustar la instrucción de multimodalidad debido al espacio de incrustación de multimodalidad alineado con imágenes de ImageBind. Para un par de imagen y subtítulo, primero extraen la característica global de la imagen utilizando el codificador de imagen congelado de ImageBind antes de la transformación de incrustación utilizando una red de unión aprendible. La característica de imagen convertida se aplica posteriormente a todos los tokens de palabras de la capa del transformador en LLaMA, creando el contexto visual para generar el subtítulo textual adecuado. A diferencia de la atención inicializada en cero en la serie LLaMA-Adapter, su mecanismo de inyección visual es simple y ponderado por un factor de puerta inicializado en cero y entrenable.

De esta manera efectiva, a medida que avanza el entrenamiento, las señales de instrucción de las incrustaciones de multimodalidad de ImageBind se pueden introducir gradualmente en LLaMA sin interferir con la comprensión del lenguaje original. Utilizando ImageBind para codificaciones específicas de modalidad, como texto, imagen, audio y video, ImageBind-LLM adquiere la capacidad de obedecer instrucciones de diversas modalidades después del entrenamiento básico de visión y lenguaje. Utilizan el codificador 3D preentrenado en Point-Bind para codificar las nubes de puntos 3D de entrada para instrucciones en dominios 3D. También proporcionan un enfoque de caché visual sin entrenamiento para la mejora de incrustaciones durante la inferencia para abordar la brecha de modalidad entre el entrenamiento de imagen y la producción condicionada por texto, audio, 3D o video.

Figura 1 compara nuestros modelos de instrucción multimodal frente a instrucción visual ImageBind-LLM. ImageBind-LLM realiza una sintonización universal de instrucciones de multimodalidad para imágenes, texto, audio, video y 3D, en contraste con esfuerzos anteriores [1-3] que se centran exclusivamente en la modalidad de imagen.

El modelo de caché comprende millones de características de imágenes en los conjuntos de datos de entrenamiento obtenidas por ImageBind, lo que mejora las incrustaciones de texto/audio/3D/video al obtener características visuales comparables (Tip-Adapter). Como resultado, las respuestas verbales a las instrucciones multimodales tienen una mayor calidad. Prueban las capacidades de seguimiento de instrucciones de multimodalidad de ImageBind-LLM en diversas situaciones y encuentran consistentemente un mejor rendimiento.

En general, ImageBind-LLM demuestra las cuatro cualidades enumeradas a continuación.

• Instrucciones con muchas modalidades. ImageBind-LLM está optimizado para responder a entradas de multimodalidad general, como imagen, texto, audio, nubes de puntos 3D y video, y su aritmética de espacio de incrustación representada por ImageBind y Point-Bind. Esto es diferente de modelos de instrucción de lenguaje e imagen anteriores.

• Ajuste de eficiencia. Durante el entrenamiento, congelan el codificador de imágenes de ImageBind y ajustan los pesos parciales en LLaMA utilizando enfoques eficientes en términos de parámetros como LoRA y ajuste de sesgo-norma. También entrenan los factores de compuerta inicializados en cero y la red de enlace adicional.

• Inyección inicializada en cero sin atención. Emplean un método de compuerta aprendible para la inyección progresiva de conocimiento, que es más directo y eficiente, e incorporan los requisitos de multimodalidad con todos los tokens de palabras de LLaMA directamente en lugar de introducir señales de instrucción adicionales a través de capas de atención.

• Recuperación de una caché cruzada-modal. Ofrecen un modelo de caché visual a partir de características de imagen extraídas por ImageBind, que realiza recuperación cruzada de modalidades para la mejora de la incrustación con el fin de abordar la disparidad de modalidades entre el entrenamiento (una imagen individual) y la inferencia (muchas modalidades).

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Cómo utilizar ChatGPT para convertir texto en una presentación de PowerPoint

Una forma rápida de convertir un texto largo en una breve Presentación de PowerPoint utilizando solo ChatGPT.

Inteligencia Artificial

Conoce GPTCache una biblioteca para desarrollar una caché semántica de consultas LLM.

ChatGPT y los modelos de lenguaje grandes (LLMs) son extremadamente flexibles, lo que permite la creación de numeroso...

Ciencia de Datos

Samsung adopta la IA y los grandes datos, revoluciona el proceso de fabricación de chips.

Samsung Electronics Co., el principal fabricante mundial de chips de memoria, está a punto de revolucionar su proceso...

Inteligencia Artificial

La Escuela de Ingeniería da la bienvenida a Songyee Yoon, PhD '00, como investigadora visitante de innovación.

Un emprendedor e innovador visionario, Yoon se enfocará en el emprendimiento, el apoyo a las ingenieras mujeres y el ...

Inteligencia Artificial

Investigadores de Meta IA publican como código abierto Pearl una biblioteca de agentes de IA de aprendizaje por refuerzo lista para la producción.

Aprendizaje por refuerzo (RL) es un subcampo del aprendizaje automático en el cual un agente toma acciones adecuadas ...

Inteligencia Artificial

De las palabras a los mundos Explorando la narración de videos con la descripción de video fina y detallada multimodal de IA

El lenguaje es el modo predominante de interacción humana, ofreciendo más que solo detalles complementarios a otras f...