Investigadores de Microsoft proponen MAIRA-1 un modelo multimodal específico de radiología para la tarea de generar informes radiológicos a partir de radiografías de tórax (CXR).

Investigadores de Microsoft proponen MAIRA-1, un modelo multimodal específico de radiología para la generación de informes a partir de radiografías de tórax (CXR).

El equipo de investigadores de Microsoft abordó el problema de generar informes de alta calidad para radiografías de tórax (CXR) desarrollando un modelo multimodal específico de radiología llamado MAIRA-1. El modelo utiliza un codificador de imagen específico de CXR y un LLM afinado basado en Vicuna-7B y aumento de datos basado en texto, centrándose en la sección de Hallazgos. El estudio reconoce los desafíos y sugiere que las futuras versiones podrían incorporar información de estudios actuales y anteriores para reducir la alucinación de información.

Los métodos existentes que se exploran en el estudio implican el uso de LLM que poseen capacidades multimodales, como PaLM y Vicuna-7B, para crear informes narrativos de radiología a partir de radiografías de tórax. El proceso de evaluación incluye métricas tradicionales de NLP como ROUGE-L y BLEU-4 y métricas específicas de radiología que se centran en aspectos clínicamente relevantes. El estudio enfatiza la importancia de proporcionar descripciones detalladas de los hallazgos. Destaca el potencial del aprendizaje automático en la generación de informes de radiología, al tiempo que aborda las limitaciones de las prácticas actuales de evaluación.

El método propuesto, MAIRA-1, combina modelos de visión y lenguaje para generar informes detallados de radiología a partir de radiografías de tórax. Este enfoque aborda los desafíos específicos de la generación de informes clínicos y se evalúa utilizando métricas que miden la calidad y la relevancia clínica. Los resultados del estudio sugieren que el método MAIRA-1 puede mejorar la precisión y la utilidad clínica de los informes de radiología, representando un avance en el uso del aprendizaje automático para la imágenes médicas.

El método propuesto, MAIRA-1, es un modelo multimodal específico de radiología para generar informes de radiografías de tórax. El modelo utiliza un codificador de imagen CXR, un adaptador aprendible y un LLM afinado (Vicuna-7B) para fusionar imagen e idioma y mejorar la calidad y la utilidad clínica del informe. Emplea aumento de datos basado en texto con GPT-3.5 para informes adicionales que mejoran aún más el entrenamiento. Las métricas de evaluación incluyen medidas tradicionales de NLP (ROUGE-L, BLEU-4, METEOR) y métricas específicas de radiología (RadGraph-F1, RGER, vector ChexBert) para evaluar la relevancia clínica.

MAIRA-1 ha demostrado mejoras significativas en la generación de informes de radiografías de tórax, como se demuestra por las mejoras en la métrica RadCliQ y en las métricas léxicas alineadas con los radiólogos. El rendimiento del modelo varía según las clases de hallazgos, con éxitos y desafíos observados. MAIRA-1 ha descubierto de manera efectiva modos de falla sutiles que no son capturados por las prácticas de evaluación estándar, como se demuestra por las métricas de evaluación que cubren tanto aspectos lingüísticos como específicos de radiología. MAIRA-1 proporciona una evaluación integral de los informes de radiografías de tórax.

En conclusión, MAIRA-1 es un modelo altamente efectivo para generar informes de radiografías de tórax, superando a los modelos existentes con su codificador de imagen específico de dominio y su capacidad para identificar hallazgos sutiles de manera fluida y precisa. Sin embargo, es importante considerar las limitaciones de las prácticas existentes y la importancia del contexto clínico en la evaluación de los resultados. Se recomienda considerar conjuntos de datos diversos y múltiples imágenes para mejorar aún más el modelo.

Las futuras iteraciones de MAIRA-1 podrían incorporar información de estudios actuales y anteriores para mitigar la necesidad de alucinación en los informes generados, como se ha mostrado en trabajos anteriores con GPT-3.5. Para abordar la dependencia de modelos externos para la extracción de entidades clínicas, los esfuerzos futuros podrían explorar enfoques de aprendizaje por refuerzo para optimizar la relevancia clínica. Se recomienda un entrenamiento mejorado en conjuntos de datos más grandes y diversos, y la consideración de múltiples imágenes y vistas para refinar aún más el rendimiento de MAIRA-1 en la generación de hallazgos sutiles específicos de radiología.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Conozca a PepCNN una herramienta de aprendizaje profundo para predecir los residuos de unión de péptidos en proteínas utilizando características de secuencia, estructura y modelos de lenguaje.

Investigadores de Microsoft proponen MAIRA-1 un modelo multimodal específico de radiología para la tarea de generar informes radiológicos a partir de radiografías de tórax (CXR).

Was this article helpful?

Conoce a Meditron una suite de modelos de lenguaje médicos de código abierto basados en LLaMA-2 (Large Language Models para Medicina)

Conozca a PepCNN una herramienta de aprendizaje profundo para predecir los residuos de unión de péptidos en proteínas utilizando características de secuencia, estructura y modelos de lenguaje.

Inteligencia Artificial

Esta revisión de investigación de IA explora la integración de imágenes satelitales y aprendizaje profundo para medir la pobreza basada en activos.

Investigadores de Stanford y UT Austin proponen Aprendizaje de Preferencia Contrastiva (APC) un método sencillo de Aprendizaje por Reforzamiento (RL) que no necesita RL y funciona con MDPs arbitrarios y datos fuera de política.

Desbloqueando el poder del contexto con Google IA una competencia entre prefixLM y causalLM en el aprendizaje en contexto

Investigadores de Stanford presentan PLATO Un nuevo enfoque de IA para abordar el ajuste excesivo en el aprendizaje automático de alta dimensión y baja muestra con regularización mejorada mediante gráficos de conocimiento.

Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

Investigadores de Google AI y de la Universidad de Tel Aviv presentan un marco de inteligencia artificial que une un modelo de difusión de texto a imagen con geometría de lente especializada para la representación de imágenes.