Microsoft AI presenta LLaVA-Med un asistente de lenguaje y visión de gran tamaño y eficientemente entrenado que revoluciona la investigación biomédica, brindando conversaciones avanzadas multimodales en menos de 15 horas.

Microsoft AI presents LLaVA-Med, a large and efficiently trained language and vision assistant that revolutionizes biomedical research by providing advanced multimodal conversations in less than 15 hours.

Hay mucho potencial para que la IA generativa conversacional ayude a los profesionales médicos, pero hasta ahora, la investigación se ha centrado solo en el texto. Si bien los avances en la IA conversacional multimodal han sido rápidos debido a miles de millones de pares de imágenes-texto públicamente disponibles, estos modelos de visión-lenguaje de dominio general aún necesitan más complejidad al interpretar y hablar sobre imágenes biológicas. El equipo de investigación de Microsoft sugiere un método de bajo esfuerzo para enseñar a un asistente conversacional de visión-lenguaje a responder a preguntas libres sobre imágenes biomédicas. El equipo propone un enfoque novedoso de aprendizaje curricular para el ajuste fino de un gran modelo de visión-lenguaje de dominio general utilizando un conjunto de datos de figura-subtítulo biomédico de gran escala y amplia cobertura extraído de PubMed Central y GPT-4 para autoinstruir datos de seguimiento de instrucciones de texto abierto de los subtítulos.

El modelo imita el proceso progresivo por el cual un lego adquiere conocimientos biológicos al aprender inicialmente a alinear el vocabulario biomédico usando los pares de figura-subtítulo tal como están y luego aprendiendo a dominar la semántica conversacional de texto abierto usando datos de seguimiento de instrucciones generados por GPT-4. En menos de 15 horas (con ocho A100s), los investigadores pueden entrenar a un Asistente de Lenguaje y Visión Grande para BioMedicina (LLaVA-Med). Con su capacidad conversacional multimodal y su capacidad para seguir instrucciones de texto abierto, LLaVA-Med es ideal para responder preguntas sobre imágenes biológicas. LLaVA-Med ajustado logra un rendimiento de última generación en tres conjuntos de datos de preguntas y respuestas visuales biomédicas de referencia. Los datos sobre qué tan bien las personas siguen las indicaciones y el modelo LLaVA-Med se harán públicos para avanzar en la investigación multimodal en biomedicina.

Las principales contribuciones del equipo se resumen de la siguiente manera:

  • Estadísticas de cumplimiento del entrenamiento médico multimodal. Al seleccionar pares de imagen-texto biomédicos de PMC-15M y ejecutar GPT-4 para generar instrucciones solo a partir del texto, describen una tubería de creación de datos única para generar instancias diversas (imagen, instrucción, salida).
  • LLaVA-Med. Usando el conjunto de datos de seguimiento de instrucciones biomédicas multimodal autogenerado, ofrecen un método novedoso de aprendizaje curricular para adaptar LLaVA al dominio biomédico.
  • Código abierto. El conjunto de datos de seguimiento de instrucciones biomédicas multimodal y el software para la generación de datos y el entrenamiento del modelo estarán disponibles públicamente para promover más estudios sobre el aprendizaje multimodal en biomedicina.

La efectividad de LLaVA-Med y la precisión de los datos de seguimiento de instrucciones biomédicas multimodales obtenidos fueron el foco de las investigaciones del equipo. Los investigadores examinan dos contextos diferentes para evaluar la investigación:

  1. ¿Qué tan efectivo es LLaVA-Med como chatbot visual biomédico de propósito general?
  2. En comparación con las metodologías de última generación, ¿cómo se desempeña LLaVA-Med en los benchmarks de la industria?

El equipo primero propone una tubería de generación de datos novedosa que muestrea 600K pares de imágenes-texto de PMC-15M, cura datos diversos de seguimiento de instrucciones a través de GPT-4 y alinea las instrucciones creadas con el modelo para resolver el problema de la falta de conjuntos de datos biomédicos multimodales para entrenar un asistente de seguimiento de instrucciones.

Los investigadores luego presentan un nuevo método para enseñar el plan de estudios de LLaVA-Med. Específicamente, entrenan el modelo de conversación multimodal LLaVA en dominios amplios y gradualmente cambian su enfoque al campo biomédico. Hay dos fases en el proceso de entrenamiento:

  1. Especificación de una palabra de idea biomédica. Las incrustaciones de palabras se alinean con los atributos de imagen relevantes de un gran conjunto de conceptos visuales biológicos innovadores.
  2. Con su modelo ajustado fino basado en instrucciones de lenguaje-imagen biomédicas, LLaVA-Med muestra impresionantes capacidades de transferencia de tareas sin necesidad de entrenamiento adicional y facilita la interacción natural del usuario.

Para resumir

El equipo de investigación de Microsoft proporciona LLaVA-Med, un gran modelo de lenguaje y visión para el campo biomédico. Utilizan una estrategia de autoinstrucción para construir una tubería de curación de datos con solo lenguaje GPT-4 y conocimiento externo. Luego entrenan el modelo en un conjunto de datos de seguimiento de instrucciones de lenguaje-imagen biomédicas de alta calidad. LLaVA-Med supera la SoTA supervisada anterior en tres conjuntos de datos de preguntas y respuestas visuales en medidas específicas después del ajuste fino, demostrando grandes habilidades de conversación con conocimiento de dominio. Si bien LLaVA-Med es un gran paso en la dirección correcta, también reconocen que tiene alucinaciones y una falta de profundidad de razonamiento que afectan a muchos modelos de lenguaje y visión. Las iniciativas futuras se enfocarán en hacer las cosas más confiables y de alta calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Transforma imágenes de moda en impresionantes videos fotorrealistas con el marco de IA DreamPose

La fotografía de moda es omnipresente en plataformas en línea, incluyendo redes sociales y sitios web de comercio ele...

Inteligencia Artificial

Rubik y Markov

El cubo de Rubik es un prototipo de un problema de planificación con un espacio de estados colosal y solo una solució...

Inteligencia Artificial

NetEase Youdao abrió EmotiVoice al público un motor de texto a voz potente y moderno.

NetEase Youdao anunció el lanzamiento oficial del “Yi Mo Sheng”: Un motor de síntesis de voz a texto abie...

Inteligencia Artificial

Mejorar la gestión de inventario utilizando Machine Learning e Inteligencia Artificial

La Inteligencia Artificial (IA) puede mejorar en gran medida la efectividad de los sistemas de gestión de inventario,...