Ajuste fino de LLaMA en documentos médicos Conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de preguntas y respuestas biomédicas.

PMC-LLaMA-A es un modelo de LLaMA que logra un alto rendimiento en preguntas y respuestas biomédicas.

El desarrollo de modelos de lenguaje grandes (LLMs), como ChatGPT de OpenAI y GPT-4, ha transformado la inteligencia artificial en muchos campos, incluyendo el procesamiento de lenguaje natural, la visión por computadora y el campo biomédico. Desafortunadamente, aún se desconocen los detalles del entrenamiento de ChatGPT y las arquitecturas de los modelos para sus variantes. Mientras que LLaMA es un modelo de lenguaje fundamental de código abierto, se hipotetiza que su bajo rendimiento en aplicaciones que requieren un amplio conocimiento de dominio se debe a la falta de datos específicos del dominio durante la etapa de pre-entrenamiento del modelo.

Se han realizado muchos estudios que discuten la modificación y el uso de LLMs de código abierto para propósitos especializados. Por ejemplo, Alpaca y Vicuna se han centrado en ampliar la capacidad del modelo para la interacción, entrenándolo con ejemplos de obediencia a instrucciones creadas automáticamente.

Un trabajo reciente realizado por la Universidad Jiao Tong de Shanghai y el Laboratorio de IA de Shanghai adopta un enfoque diferente al infundir conocimiento de dominio en un solo modelo de lenguaje fundamental pre-entrenado para dirigirlo hacia un corpus médico específico. Introducen PMC-LLaMA, un modelo de lenguaje de acceso público desarrollado refinando LLaMA-7B utilizando 4,8 millones de artículos académicos médicos. El equipo cree que la discusión y consulta médica se beneficiarían más de un modelo de lenguaje fundamental con enfoque médico.

El equipo comenzó con los conjuntos de datos S2ORC, que contienen 81,1 millones de artículos académicos en inglés, y los clasificó según su PubMed Central (PMC)-id. Por lo tanto, aproximadamente 4,9 millones de artículos, que suman más de 75 mil millones de tokens, están altamente relacionados con el conocimiento médico. Optimizando un objetivo de generación autoregresiva, presentado por primera vez en GPT2, ajustaron finamente el modelo LLaMA-7B en estos artículos de PMC de acceso gratuito. Emplearon el formato de datos bf16 (Brain Floating Point) y el enfoque de aceleración Fully Sharded Data Parallel (FSDP) para acelerar el proceso de aprendizaje.

El equipo prueba PMC-LLaMA realizando tres tipos diferentes de ajuste fino en los conjuntos de datos de preguntas y respuestas médicas asociados mencionados anteriormente: ajuste fino completo, ajuste fino eficiente en parámetros y ajuste fino eficiente en datos. Los resultados de los experimentos muestran que PMC-LLaMA supera a LLaMA y a otros modelos entrenados con instrucciones ajustadas de LLaMA en el dominio médico cuando se ajustan las instrucciones.

Una limitación de PMC-LLaMA es que no se puede encontrar cada token en los 4,8 millones de artículos debido a que hasta ahora solo se han entrenado cinco épocas. En el futuro, planean entrenar gradualmente modelos PMC-LLaMA con más parámetros, entrenar PMC-LLaMA de manera continua y actualizar el modelo base en la página de hugging face.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Ajuste fino de LLaMA en documentos médicos Conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de preguntas y respuestas biomédicas.

Was this article helpful?

Pandas para el Análisis de Datos

¿Qué es la función SUBSTRING en SQL? [Explicado con ejemplos]

Inteligencia Artificial

Los coches de Mercedes-Benz se vuelven aún más inteligentes con ChatGPT.

Oracle Cloud Infrastructure ofrece nuevas instancias de cómputo aceleradas por GPU NVIDIA

Evaluando el Potencial de Conciencia en la IA Una Exploración Científica de las Propiedades Indicadoras Basadas en Teorías Neurocientíficas

Encontrar respuestas (sobre la mejor manera de encontrar respuestas)

Investigadores de Meta y UNC-Chapel Hill introducen Branch-Solve-Merge un programa revolucionario que mejora el rendimiento de modelos de lenguaje grandes en tareas complejas de lenguaje.

ChatGPT investigado por la Comisión Federal de Comercio por posibles daños