¿Puede la generación sintética de texto clínico revolucionar las tareas de IA clínica? Conozca a ClinGen un modelo de IA que implica la extracción de conocimientos clínicos y la generación de indicaciones de LLM informadas por contexto.

¿Puede la generación sintética de texto clínico revolucionar la IA en medicina? Conozca a ClinGen, un modelo de IA que extrae conocimientos clínicos y genera indicaciones de LLM contextualmente informadas.

La extracción, análisis e interpretación de datos médicos a partir de literatura clínica no estructurada se incluyen en la disciplina emergente del procesamiento del lenguaje natural clínico (NLP). A pesar de su importancia, surgen dificultades particulares al desarrollar metodologías para NLP clínico. Por ejemplo, los textos clínicos pueden confundir a los modelos de NLP ordinarios, ya que a menudo están llenos de acrónimos y terminología médica especializada. Afortunadamente, los avances recientes en grandes modelos de lenguaje proporcionan una solución prometedora a estos problemas, ya que están pre-entrenados en grandes corpora e incluyen miles de millones de parámetros, capturando naturalmente información clínica sustancial. 

Estos avances resaltan la necesidad de desarrollar métodos específicos para modificar los modelos de lenguaje masivo (LLM, por sus siglas en inglés) para usar en entornos clínicos que traten tanto la complejidad terminológica como mejoren los modelos a través del ajuste fino de los datos clínicos. Aunque los LLM genéricos tienen mucho potencial, usarlos directamente para hacer inferencias sobre datos de texto clínico solo es a veces deseable en entornos del mundo real. En primer lugar, estos LLM a menudo tienen miles de millones de parámetros, lo que requiere una gran potencia de procesamiento incluso durante la concepción. Esto resulta en costos de infraestructura elevados y tiempos prolongados de inferencia. La información sensible del paciente en el texto clínico también plantea preocupaciones sobre la privacidad y el cumplimiento normativo. La creación de datos de entrenamiento sintéticos con LLM es una técnica potencial para abordar estos problemas, ya que utiliza las capacidades de los LLM de manera consciente de los recursos y la privacidad. 

Los modelos pueden operar a niveles de alto rendimiento al cumplir con las leyes de privacidad de datos cuando se entrenan en estos conjuntos de datos artificiales, replicando datos clínicos del mundo real. En el aprendizaje automático en general, una de las áreas de estudio más comunes es la creación de datos sintéticos utilizando modelos de base. Sin embargo, usar LLM entrenados en textos disponibles para crear datos clínicos tiene desafíos especiales al proporcionar datos de alta calidad que sigan la distribución del conjunto de datos original. Para evaluar la calidad de los datos producidos por las técnicas existentes, realizan un análisis exhaustivo centrado en la variedad y la distribución. La puntuación de discrepancia del momento central (CMD, por sus siglas en inglés) y la visualización de la incrustación t-SNE revelan un cambio notable en la distribución de los datos. 

También se observa la cantidad y frecuencia de entidades clínicamente relacionadas en los datos sintéticos; se observa una disminución significativa al comparar los datos sintéticos con los datos de referencia principales. Aunque varios estudios han explorado la creación de datos clínicos utilizando modelos de lenguaje, muchas de estas iniciativas son específicas de tareas. Registros electrónicos de salud, notas clínicas, minería de textos médicos y conversaciones médicas son algunos ejemplos. Estos estudios pueden utilizar una cantidad excesiva de datos de entrenamiento y frecuentemente utilizan modelos de lenguaje directamente para la producción de texto. Solo existen tantas ideas coherentes para mejorar la forma en que se modifican los LLM para producir texto sintético que ayudará con aplicaciones clínicas posteriores. 

Impulsados por la investigación anterior, investigadores de la Universidad Emory y el Instituto de Tecnología de Georgia presentan CLINGEN, un marco genérico imbuido de conocimientos clínicos para producir textos clínicos de alta calidad en situaciones de poca capacitación. Sus objetivos finales son promover la variedad de sujetos en el texto producido y cerrar la brecha entre los datos sintéticos y de referencia. Ofrecen un método para utilizar la extracción de conocimientos clínicos para contextualizar las indicaciones y lograr este objetivo. Esto implica obtener ideas sobre temas clínicos de los KG y LLM, y consejos sobre estilos de escritura de los LLM. De esta manera, CLINGEN combina la información paramétrica interna incorporada en los grandes modelos de lenguaje con conocimientos clínicos no paramétricos de gráficos de conocimiento clínico externos. 

Es importante tener en cuenta que CLINGEN se puede usar fácilmente para diversas tareas fundamentales de NLP clínico y requiere muy poco trabajo humano adicional. A continuación se muestra un resumen de sus contribuciones: 

• Para crear datos de texto clínico en situaciones de poca capacitación, sugieren CLINGEN, un marco genérico lleno de información clínica. 

• Ofrecen un método sencillo pero eficiente para utilizar la extracción de conocimientos clínicos para adaptar las indicaciones a las tareas de NLP clínico previstas, que se pueden aplicar fácilmente a diversas actividades en NLP clínico. Esto implica obtener ideas sobre temas clínicos de los KG y LLM, y consejos sobre estilos de escritura de los LLM.

• Realizan un análisis exhaustivo de la creación de datos clínicos sintéticos utilizando 16 conjuntos de datos y 7 tareas de NLP clínico. Los resultados experimentales muestran que CLINGEN aumenta la variedad de las muestras de entrenamiento producidas al alinearse más estrechamente con la distribución de los datos originales. El aumento del desempeño empírico (8.98% para PubMedBERTBase y 7.27% para PubMedBERTLarge) es consistente en múltiples tareas con diferentes LLM y clasificadores.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

6 Pasos para Proteger tu Privacidad al Usar Herramientas de IA Generativa

Introducción La aparición de herramientas de IA generativa ha despertado tanto entusiasmo como preocupación. Estas he...

Inteligencia Artificial

ChatGPT con Ojos y Oídos BuboGPT es un Enfoque de IA que Permite la Fundamentación Visual en LLMs Multi-Modales

I had trouble accessing your link so I’m going to try to continue without it. Los Modelos de Lenguaje Grandes (...

Aprendizaje Automático

Anunciando mejoras en la extracción de tablas con Amazon Textract

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y da...

Inteligencia Artificial

Varias filtraciones de datos en 23andMe

Datos genéticos robados llevan a una demanda colectiva contra la empresa de pruebas.

Inteligencia Artificial

Calidad desigual de los parques expuesta a través de las redes sociales y el aprendizaje automático

El estudio utiliza las redes sociales y el aprendizaje automático para mostrar las injusticias ambientales en los par...

Ciencia de Datos

Convirtiendo viejos mapas en modelos digitales en 3D de vecindarios perdidos.

Investigadores han convertido antiguos mapas de seguros contra incendios de Sanborn en modelos digitales tridimension...