¿Puede la generación sintética de texto clínico revolucionar las tareas de IA clínica? Conozca a ClinGen un modelo de IA que implica la extracción de conocimientos clínicos y la generación de indicaciones de LLM informadas por contexto.
¿Puede la generación sintética de texto clínico revolucionar la IA en medicina? Conozca a ClinGen, un modelo de IA que extrae conocimientos clínicos y genera indicaciones de LLM contextualmente informadas.
La extracción, análisis e interpretación de datos médicos a partir de literatura clínica no estructurada se incluyen en la disciplina emergente del procesamiento del lenguaje natural clínico (NLP). A pesar de su importancia, surgen dificultades particulares al desarrollar metodologías para NLP clínico. Por ejemplo, los textos clínicos pueden confundir a los modelos de NLP ordinarios, ya que a menudo están llenos de acrónimos y terminología médica especializada. Afortunadamente, los avances recientes en grandes modelos de lenguaje proporcionan una solución prometedora a estos problemas, ya que están pre-entrenados en grandes corpora e incluyen miles de millones de parámetros, capturando naturalmente información clínica sustancial.
Estos avances resaltan la necesidad de desarrollar métodos específicos para modificar los modelos de lenguaje masivo (LLM, por sus siglas en inglés) para usar en entornos clínicos que traten tanto la complejidad terminológica como mejoren los modelos a través del ajuste fino de los datos clínicos. Aunque los LLM genéricos tienen mucho potencial, usarlos directamente para hacer inferencias sobre datos de texto clínico solo es a veces deseable en entornos del mundo real. En primer lugar, estos LLM a menudo tienen miles de millones de parámetros, lo que requiere una gran potencia de procesamiento incluso durante la concepción. Esto resulta en costos de infraestructura elevados y tiempos prolongados de inferencia. La información sensible del paciente en el texto clínico también plantea preocupaciones sobre la privacidad y el cumplimiento normativo. La creación de datos de entrenamiento sintéticos con LLM es una técnica potencial para abordar estos problemas, ya que utiliza las capacidades de los LLM de manera consciente de los recursos y la privacidad.
Los modelos pueden operar a niveles de alto rendimiento al cumplir con las leyes de privacidad de datos cuando se entrenan en estos conjuntos de datos artificiales, replicando datos clínicos del mundo real. En el aprendizaje automático en general, una de las áreas de estudio más comunes es la creación de datos sintéticos utilizando modelos de base. Sin embargo, usar LLM entrenados en textos disponibles para crear datos clínicos tiene desafíos especiales al proporcionar datos de alta calidad que sigan la distribución del conjunto de datos original. Para evaluar la calidad de los datos producidos por las técnicas existentes, realizan un análisis exhaustivo centrado en la variedad y la distribución. La puntuación de discrepancia del momento central (CMD, por sus siglas en inglés) y la visualización de la incrustación t-SNE revelan un cambio notable en la distribución de los datos.
- ¿Se pueden simplificar los bloques de transformador sin comprometer la eficiencia? Este artículo de inteligencia artificial de ETH Zurich explora el equilibrio entre la complejidad del diseño y el rendimiento.
- Repositorios de tendencias de IA en GitHub semana del 13 de noviembre de 2023
- OpenAI busca financiamiento adicional para la Inteligencia Artificial General
También se observa la cantidad y frecuencia de entidades clínicamente relacionadas en los datos sintéticos; se observa una disminución significativa al comparar los datos sintéticos con los datos de referencia principales. Aunque varios estudios han explorado la creación de datos clínicos utilizando modelos de lenguaje, muchas de estas iniciativas son específicas de tareas. Registros electrónicos de salud, notas clínicas, minería de textos médicos y conversaciones médicas son algunos ejemplos. Estos estudios pueden utilizar una cantidad excesiva de datos de entrenamiento y frecuentemente utilizan modelos de lenguaje directamente para la producción de texto. Solo existen tantas ideas coherentes para mejorar la forma en que se modifican los LLM para producir texto sintético que ayudará con aplicaciones clínicas posteriores.
Impulsados por la investigación anterior, investigadores de la Universidad Emory y el Instituto de Tecnología de Georgia presentan CLINGEN, un marco genérico imbuido de conocimientos clínicos para producir textos clínicos de alta calidad en situaciones de poca capacitación. Sus objetivos finales son promover la variedad de sujetos en el texto producido y cerrar la brecha entre los datos sintéticos y de referencia. Ofrecen un método para utilizar la extracción de conocimientos clínicos para contextualizar las indicaciones y lograr este objetivo. Esto implica obtener ideas sobre temas clínicos de los KG y LLM, y consejos sobre estilos de escritura de los LLM. De esta manera, CLINGEN combina la información paramétrica interna incorporada en los grandes modelos de lenguaje con conocimientos clínicos no paramétricos de gráficos de conocimiento clínico externos.
Es importante tener en cuenta que CLINGEN se puede usar fácilmente para diversas tareas fundamentales de NLP clínico y requiere muy poco trabajo humano adicional. A continuación se muestra un resumen de sus contribuciones:
• Para crear datos de texto clínico en situaciones de poca capacitación, sugieren CLINGEN, un marco genérico lleno de información clínica.
• Ofrecen un método sencillo pero eficiente para utilizar la extracción de conocimientos clínicos para adaptar las indicaciones a las tareas de NLP clínico previstas, que se pueden aplicar fácilmente a diversas actividades en NLP clínico. Esto implica obtener ideas sobre temas clínicos de los KG y LLM, y consejos sobre estilos de escritura de los LLM.
• Realizan un análisis exhaustivo de la creación de datos clínicos sintéticos utilizando 16 conjuntos de datos y 7 tareas de NLP clínico. Los resultados experimentales muestran que CLINGEN aumenta la variedad de las muestras de entrenamiento producidas al alinearse más estrechamente con la distribución de los datos originales. El aumento del desempeño empírico (8.98% para PubMedBERTBase y 7.27% para PubMedBERTLarge) es consistente en múltiples tareas con diferentes LLM y clasificadores.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Un hombre con Parkinson recuperó la capacidad de caminar, gracias a un implante espinal
- Una nueva investigación de Microsoft AI propone HMD-NeMo un nuevo enfoque que aborda la generación de movimientos de cuerpo completo plausibles y precisos incluso cuando las manos puedan estar parcialmente visibles.
- GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad
- Desbloqueando el poder del Big Data El fascinante mundo del Aprendizaje de Grafos
- Data Doc Cómo GPT-4 sobresalió en mi tarea de codificación de Python del primer año
- Rosalyn revela StableSight AI para combatir el creciente fraude en exámenes en línea
- Tomando medidas legales para proteger a los usuarios de IA y a las pequeñas empresas