Investigadores de China presentan ImageBind-LLM un método de ajuste de instrucciones de múltiples modalidades de modelos de lenguaje grandes (LLMs) a través de ImageBind.
Investigadores de China presentan ImageBind-LLM, un método de ajuste de instrucciones de múltiples modalidades de LLMs a través de ImageBind.
Investigadores han observado recientemente mejoras significativas en la sintonización de instrucciones de modelos de lenguaje grandes (LLMs, por sus siglas en inglés). ChatGPT y GPT-4 son sistemas de conversación de propósito general que obedecen comandos humanos en lenguaje y visuales. Sin embargo, todavía no se pueden replicar debido a la limitación de código cerrado. Alpaca, LLaMAAdapter y otros esfuerzos similares ofrecen modificar el LLaMA de acceso público en modelos de instrucción en lenguaje utilizando datos autogenerados como respuesta a esto. LLaVA, LLaMA-Adapter y otros integran capacidades de comprensión visual en LLMs para generación condicionada por imágenes para lograr la adaptación de instrucciones de imágenes.
A pesar del éxito de las técnicas actuales de sintonización de instrucciones, se necesita más para crear un LLM para instrucciones de multimodalidad amplia, como texto, imagen, audio, nubes de puntos 3D y video. Los autores de este estudio del Laboratorio de Inteligencia Artificial de Shanghai, CUHK MMLab y vivo AI Lab presentan el modelo de seguimiento de instrucciones de multimodalidad ImageBind-LLM, que ajusta eficazmente LLaMA bajo la dirección del espacio de incrustación conjunta en el ImageBind preentrenado. Como se muestra en la Figura 1, su ImageBind-LLM (b) puede responder a instrucciones de entrada de numerosas modalidades además de imágenes, a diferencia de modelos de instrucción visual anteriores (a), demostrando una prometedora capacidad de extensibilidad y generalización.
Específicamente, proponen usar únicamente los datos de visión y lenguaje para ajustar la instrucción de multimodalidad debido al espacio de incrustación de multimodalidad alineado con imágenes de ImageBind. Para un par de imagen y subtítulo, primero extraen la característica global de la imagen utilizando el codificador de imagen congelado de ImageBind antes de la transformación de incrustación utilizando una red de unión aprendible. La característica de imagen convertida se aplica posteriormente a todos los tokens de palabras de la capa del transformador en LLaMA, creando el contexto visual para generar el subtítulo textual adecuado. A diferencia de la atención inicializada en cero en la serie LLaMA-Adapter, su mecanismo de inyección visual es simple y ponderado por un factor de puerta inicializado en cero y entrenable.
- Comprendiendo el Aprendizaje Supervisado Teoría y Visión General
- Investigadores de Stanford introducen Protpardelle un modelo de difusión de todos los átomos revolucionario para el co-diseño de la estructura y secuencia de proteínas
- ¿Cómo deberíamos ver los datos clínicos sesgados en el aprendizaje automático médico? Un llamado a una perspectiva arqueológica
De esta manera efectiva, a medida que avanza el entrenamiento, las señales de instrucción de las incrustaciones de multimodalidad de ImageBind se pueden introducir gradualmente en LLaMA sin interferir con la comprensión del lenguaje original. Utilizando ImageBind para codificaciones específicas de modalidad, como texto, imagen, audio y video, ImageBind-LLM adquiere la capacidad de obedecer instrucciones de diversas modalidades después del entrenamiento básico de visión y lenguaje. Utilizan el codificador 3D preentrenado en Point-Bind para codificar las nubes de puntos 3D de entrada para instrucciones en dominios 3D. También proporcionan un enfoque de caché visual sin entrenamiento para la mejora de incrustaciones durante la inferencia para abordar la brecha de modalidad entre el entrenamiento de imagen y la producción condicionada por texto, audio, 3D o video.
El modelo de caché comprende millones de características de imágenes en los conjuntos de datos de entrenamiento obtenidas por ImageBind, lo que mejora las incrustaciones de texto/audio/3D/video al obtener características visuales comparables (Tip-Adapter). Como resultado, las respuestas verbales a las instrucciones multimodales tienen una mayor calidad. Prueban las capacidades de seguimiento de instrucciones de multimodalidad de ImageBind-LLM en diversas situaciones y encuentran consistentemente un mejor rendimiento.
En general, ImageBind-LLM demuestra las cuatro cualidades enumeradas a continuación.
• Instrucciones con muchas modalidades. ImageBind-LLM está optimizado para responder a entradas de multimodalidad general, como imagen, texto, audio, nubes de puntos 3D y video, y su aritmética de espacio de incrustación representada por ImageBind y Point-Bind. Esto es diferente de modelos de instrucción de lenguaje e imagen anteriores.
• Ajuste de eficiencia. Durante el entrenamiento, congelan el codificador de imágenes de ImageBind y ajustan los pesos parciales en LLaMA utilizando enfoques eficientes en términos de parámetros como LoRA y ajuste de sesgo-norma. También entrenan los factores de compuerta inicializados en cero y la red de enlace adicional.
• Inyección inicializada en cero sin atención. Emplean un método de compuerta aprendible para la inyección progresiva de conocimiento, que es más directo y eficiente, e incorporan los requisitos de multimodalidad con todos los tokens de palabras de LLaMA directamente en lugar de introducir señales de instrucción adicionales a través de capas de atención.
• Recuperación de una caché cruzada-modal. Ofrecen un modelo de caché visual a partir de características de imagen extraídas por ImageBind, que realiza recuperación cruzada de modalidades para la mejora de la incrustación con el fin de abordar la disparidad de modalidades entre el entrenamiento (una imagen individual) y la inferencia (muchas modalidades).
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos
- Investigadores de Stanford presentan Spellburst un entorno de codificación creativa impulsado por un modelo de lenguaje grande (LLM).
- IA para desarrolladores web Introducción y configuración del proyecto
- Regex para los Científicos de Datos Modernos
- El Dilema de AutoML
- La nueva solución de código abierto de Vianai aborda el problema de la alucinación en la IA
- Técnicas de caza de amenazas de próxima generación con integración SIEM-SOAR