Revolucionando la atención médica Explorando el impacto y el futuro de los modelos de lenguaje grandes en Medicina

Revolucionando la atención médica Explorando el impacto y el futuro de los modelos de lenguaje grandes en Medicina

La integración y aplicación de grandes modelos de lenguaje (LLMs) en medicina y atención médica ha sido un tema de interés y desarrollo significativo.

Como se señala en la conferencia global de la Sociedad de Gestión de Información y Sistemas de Salud y otros eventos destacados, empresas como Google lideran la exploración del potencial de la IA generativa en el campo de la atención médica. Sus iniciativas, como Med-PaLM 2, resaltan el panorama en evolución de las soluciones de atención médica impulsadas por IA, especialmente en áreas como diagnóstico, cuidado de pacientes y eficiencia administrativa.

Med-PaLM 2 de Google, un LLM pionero en el campo de la atención médica, ha demostrado capacidades impresionantes, logrando, en particular, un nivel “experto” en preguntas de estilo del Examen de Licencia Médica de Estados Unidos. Este modelo, y otros similares, prometen revolucionar la forma en que los profesionales de la salud acceden y utilizan la información, mejorando potencialmente la precisión del diagnóstico y la eficiencia en la atención al paciente.

Sin embargo, junto con estos avances, han surgido preocupaciones sobre la practicidad y seguridad de estas tecnologías en entornos clínicos. Por ejemplo, la dependencia de fuentes de datos de internet para el entrenamiento del modelo, si bien beneficioso en algunos contextos, puede no ser siempre apropiada o confiable para fines médicos. Como señala Nigam Shah, PhD, MBBS, Jefe Científico de Datos de Stanford Health Care, las preguntas cruciales son sobre el rendimiento de estos modelos en entornos médicos del mundo real y su impacto real en la atención al paciente y la eficiencia de la atención médica.

La perspectiva del Dr. Shah subraya la necesidad de un enfoque más personalizado para utilizar LLMs en medicina. En lugar de modelos de propósito general entrenados con datos amplios de internet, sugiere una estrategia más enfocada en la que los modelos se entrenen con datos médicos específicos y relevantes. Este enfoque se asemeja a la formación de un médico interno, brindándoles tareas específicas, supervisando su desempeño y permitiendo gradualmente más autonomía a medida que demuestran competencia.

En línea con esto, el desarrollo de Meditron por investigadores de EPFL presenta un avance interesante en el campo. Meditron, un LLM de código abierto específicamente adaptado para aplicaciones médicas, representa un paso significativo hacia adelante. Entrenado con datos médicos seleccionados de fuentes confiables como PubMed y pautas clínicas, Meditron ofrece una herramienta más enfocada y potencialmente más confiable para los profesionales médicos. Su naturaleza de código abierto no solo promueve la transparencia y la colaboración, sino que también permite mejoras continuas y pruebas de estrés por parte de la comunidad de investigación más amplia.

MEDITRON-70B-achieves-an-accuracy-of-70.2-on-USMLE-style-questions-in-the-MedQA-4-options-dataset

MEDITRON-70B-achieves-an-accuracy-of-70.2-on-USMLE-style-questions-in-the-MedQA-4-options-dataset

El desarrollo de herramientas como Meditron, Med-PaLM 2 y otros refleja un reconocimiento creciente de los requisitos únicos del sector de la atención médica en lo que respecta a las aplicaciones de IA. El énfasis en capacitar estos modelos con datos médicos relevantes y de alta calidad, y garantizar su seguridad y confiabilidad en entornos clínicos, es muy importante.

Además, la inclusión de conjuntos de datos diversos, como los de contextos humanitarios como el Comité Internacional de la Cruz Roja, demuestra una sensibilidad a las diversas necesidades y desafíos en la atención médica global. Este enfoque se alinea con la misión más amplia de muchos centros de investigación de IA, que tienen como objetivo crear herramientas de IA que no solo sean tecnológicamente avanzadas, sino también socialmente responsables y beneficiosas.

El artículo titulado “Los grandes modelos de lenguaje codifican el conocimiento clínico”, recientemente publicado en Nature, explora cómo se pueden utilizar de manera efectiva los grandes modelos de lenguaje (LLMs) en entornos clínicos. La investigación presenta ideas y metodologías innovadoras, arrojando luz sobre las capacidades y limitaciones de los LLMs en el ámbito médico.

El ámbito médico se caracteriza por su complejidad, con una amplia gama de síntomas, enfermedades y tratamientos que evolucionan constantemente. Los LLMs no solo deben comprender esta complejidad, sino también mantenerse al día con los últimos conocimientos médicos y pautas.

El núcleo de esta investigación gira en torno a un nuevo punto de referencia seleccionado llamado MultiMedQA. Este punto de referencia amalgama seis conjuntos de datos existentes de preguntas y respuestas médicas con un nuevo conjunto de datos, HealthSearchQA, que comprende preguntas médicas frecuentemente buscadas en línea. Este enfoque integral tiene como objetivo evaluar los LLM en varias dimensiones, que incluyen la factualidad, comprensión, razonamiento, posibles daños y sesgos, abordando así las limitaciones de las evaluaciones automatizadas anteriores que se basaban en puntos de referencia limitados.

MultiMedQA, una referencia para responder preguntas médicas en el ámbito de los exámenes médicos

MultiMedQA, una referencia para responder preguntas médicas en el ámbito de los exámenes médicos

La clave del estudio es la evaluación del Modelo de Lenguaje Pathways (PaLM), un LLM de 540 billones de parámetros, y su variante ajustada a instrucciones, Flan-PaLM, en el MultiMedQA. Notablemente, Flan-PaLM logra una precisión de vanguardia en todos los conjuntos de datos de opción múltiple dentro de MultiMedQA, incluida una precisión del 67,6% en MedQA, que comprende preguntas al estilo del examen de licencia médica de EE. UU. Esta mejora representa un avance significativo respecto a los modelos anteriores, superando el estado del arte anterior en más del 17%.

MedQA

El conjunto de datos MedQA3 presenta preguntas con el estilo del USMLE, cada una con cuatro o cinco opciones de respuesta. Incluye un conjunto de desarrollo con 11.450 preguntas y un conjunto de prueba que comprende 1.273 preguntas.

Formato: pregunta y respuesta (P + R), opción múltiple, dominio abierto.

Ejemplo de pregunta: Un hombre de 65 años con hipertensión acude al médico para un examen de mantenimiento de rutina. Los medicamentos actuales incluyen atenolol, lisinopril y atorvastatina. Tiene una frecuencia cardíaca de 86 min−1, una frecuencia respiratoria de 18 min−1 y una presión arterial de 145/95 mmHg. El examen cardíaco revela un soplo diastólico terminal. ¿Cuál de los siguientes es la causa más probable de este examen físico?

Respuestas (la respuesta correcta está en negrita): (A) Disminución de la compliance del ventrículo izquierdo, (B) Degeneración mixomatosa de la válvula mitral, (C) Inflamación del pericardio, (D) Dilatación de la raíz aórtica, (E) Engrosamiento de las valvas de la válvula mitral.

El estudio también identifica brechas críticas en el rendimiento del modelo, especialmente en la respuesta a preguntas médicas de los consumidores. Para abordar estos problemas, los investigadores presentan un método conocido como ajuste de indicaciones de instrucción. Esta técnica alinea eficientemente los LLM a nuevos dominios usando unos pocos ejemplos, lo que resulta en la creación de Med-PaLM. El modelo Med-PaLM, aunque con un rendimiento alentador y una mejora en la comprensión, recuperación de conocimientos y razonamiento, aún no alcanza el nivel de los médicos.

Un aspecto destacado de esta investigación es el detallado marco de evaluación humana. Este marco evalúa las respuestas de los modelos en cuanto a su acuerdo con el consenso científico y los posibles resultados perjudiciales. Por ejemplo, si bien solo el 61,9% de las respuestas de Flan-PaLM en forma de texto largo se alinearon con el consenso científico, esta cifra aumentó al 92,6% para Med-PaLM, siendo comparable a las respuestas generadas por médicos. De manera similar, el potencial de resultados perjudiciales se redujo significativamente en las respuestas de Med-PaLM en comparación con Flan-PaLM.

La evaluación humana de las respuestas de Med-PaLM resaltó su competencia en varias áreas, alineándose estrechamente con las respuestas generadas por médicos. Esto subraya el potencial de Med-PaLM como herramienta de apoyo en entornos clínicos.

La investigación discutida anteriormente profundiza en las complejidades de mejorar los Modelos de Lenguaje Grande (LLM) para aplicaciones médicas. Las técnicas y observaciones de este estudio se pueden generalizar para mejorar las capacidades de LLM en diversos dominios. Exploraremos estos aspectos clave:

Ajuste de Instrucciones Mejora el Rendimiento

  • Aplicación Generalizada: El ajuste de instrucciones, que implica el ajuste fino de los LLM con instrucciones o pautas específicas, ha demostrado mejorar significativamente el rendimiento en diversos dominios. Esta técnica se podría aplicar a otros campos como los legales, financieros o educativos para mejorar la precisión y relevancia de las salidas de LLM.

Escalado del Tamaño del Modelo

  • Implicaciones más Amplias: La observación de que el escalado del tamaño del modelo mejora el rendimiento no se limita a la respuesta de preguntas médicas. Los modelos más grandes, con más parámetros, tienen la capacidad de procesar y generar respuestas más sutiles y complejas. Este escalado puede ser beneficioso en dominios como el servicio al cliente, la redacción creativa y el soporte técnico, donde la comprensión y generación de respuestas sutiles son cruciales.

Encadenamiento de Pensamiento (COT) como Estímulo

  • Utilización de Diversos Dominios: El uso de COT como estímulo, aunque no siempre mejora el rendimiento en conjuntos de datos médicos, puede ser valioso en otros campos donde se requiere una resolución de problemas complejos. Por ejemplo, en la solución de problemas técnicos o en escenarios de toma de decisiones complejas, el COT puede guiar a los modelos de lenguaje con conocimiento previo (LLMs) para procesar la información paso a paso, lo que resulta en salidas más precisas y razonadas.

Autoconsistencia para una Mayor Precisión

  • Amplias Aplicaciones: La técnica de autoconsistencia, donde se generan múltiples salidas y se selecciona la respuesta más consistente, puede mejorar significativamente el rendimiento en varios campos. En dominios como las finanzas o el derecho, donde la precisión es fundamental, este método se puede utilizar para verificar cruzadamente las salidas generadas y mejorar la fiabilidad.

Incertidumbre y Predicción Selectiva

  • Pertinencia en Diversos Campos: Comunicar estimaciones de incertidumbre es crucial en campos donde la desinformación puede tener graves consecuencias, como la atención médica y el derecho. Utilizar la capacidad de los LLMs para expresar incertidumbre y posponer selectivamente las predicciones cuando la confianza es baja puede ser una herramienta crucial en estos ámbitos para evitar la difusión de información inexacta.

La aplicación de estos modelos en el mundo real va más allá de responder preguntas. Se pueden utilizar para la educación de pacientes, para asistir en procesos de diagnóstico e incluso en la formación de estudiantes de medicina. Sin embargo, su implementación debe ser gestionada cuidadosamente para evitar depender de la IA sin una supervisión humana adecuada.

A medida que el conocimiento médico evoluciona, los LLMs también deben adaptarse y aprender. Esto requiere mecanismos de aprendizaje continuo y actualización, garantizando que los modelos sigan siendo relevantes y precisos a lo largo del tiempo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los 5 mejores cursos de IA generativa para hacer en 2023

Introducción Es imperativo mantenerse actualizado sobre la información y habilidades más recientes relacionadas con l...

Noticias de Inteligencia Artificial

ChatGPT se vuelve más económico y agrega nuevas funciones.

En el campo de la inteligencia artificial generativa en constante evolución, OpenAI está causando sensación una vez m...

Inteligencia Artificial

Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

En los modelos de lenguaje transformadores autoregresivos, se identifica un mecanismo neuronal que representa una fun...

Inteligencia Artificial

De harapos a riquezas

A medida que los modelos de lenguaje grandes (LLMs por sus siglas en inglés) se han apoderado del mundo, los motores ...

Aprendizaje Automático

El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.

El programa aprovecha la experiencia en investigación del MIT y el conocimiento industrial de Takeda para investigar ...