Ajuste fino de LLaMA en documentos médicos Conozca el modelo PMC-LLaMA-A que logra un alto rendimiento en los puntos de referencia de preguntas y respuestas biomédicas.
PMC-LLaMA-A es un modelo de LLaMA que logra un alto rendimiento en preguntas y respuestas biomédicas.
El desarrollo de modelos de lenguaje grandes (LLMs), como ChatGPT de OpenAI y GPT-4, ha transformado la inteligencia artificial en muchos campos, incluyendo el procesamiento de lenguaje natural, la visión por computadora y el campo biomédico. Desafortunadamente, aún se desconocen los detalles del entrenamiento de ChatGPT y las arquitecturas de los modelos para sus variantes. Mientras que LLaMA es un modelo de lenguaje fundamental de código abierto, se hipotetiza que su bajo rendimiento en aplicaciones que requieren un amplio conocimiento de dominio se debe a la falta de datos específicos del dominio durante la etapa de pre-entrenamiento del modelo.
Se han realizado muchos estudios que discuten la modificación y el uso de LLMs de código abierto para propósitos especializados. Por ejemplo, Alpaca y Vicuna se han centrado en ampliar la capacidad del modelo para la interacción, entrenándolo con ejemplos de obediencia a instrucciones creadas automáticamente.
Un trabajo reciente realizado por la Universidad Jiao Tong de Shanghai y el Laboratorio de IA de Shanghai adopta un enfoque diferente al infundir conocimiento de dominio en un solo modelo de lenguaje fundamental pre-entrenado para dirigirlo hacia un corpus médico específico. Introducen PMC-LLaMA, un modelo de lenguaje de acceso público desarrollado refinando LLaMA-7B utilizando 4,8 millones de artículos académicos médicos. El equipo cree que la discusión y consulta médica se beneficiarían más de un modelo de lenguaje fundamental con enfoque médico.
- Pandas para el Análisis de Datos
- Emparejamiento de mapas para la predicción de trayectorias
- ¿Cuánto tiempo se tarda en aprender Machine Learning?
El equipo comenzó con los conjuntos de datos S2ORC, que contienen 81,1 millones de artículos académicos en inglés, y los clasificó según su PubMed Central (PMC)-id. Por lo tanto, aproximadamente 4,9 millones de artículos, que suman más de 75 mil millones de tokens, están altamente relacionados con el conocimiento médico. Optimizando un objetivo de generación autoregresiva, presentado por primera vez en GPT2, ajustaron finamente el modelo LLaMA-7B en estos artículos de PMC de acceso gratuito. Emplearon el formato de datos bf16 (Brain Floating Point) y el enfoque de aceleración Fully Sharded Data Parallel (FSDP) para acelerar el proceso de aprendizaje.
El equipo prueba PMC-LLaMA realizando tres tipos diferentes de ajuste fino en los conjuntos de datos de preguntas y respuestas médicas asociados mencionados anteriormente: ajuste fino completo, ajuste fino eficiente en parámetros y ajuste fino eficiente en datos. Los resultados de los experimentos muestran que PMC-LLaMA supera a LLaMA y a otros modelos entrenados con instrucciones ajustadas de LLaMA en el dominio médico cuando se ajustan las instrucciones.
Una limitación de PMC-LLaMA es que no se puede encontrar cada token en los 4,8 millones de artículos debido a que hasta ahora solo se han entrenado cinco épocas. En el futuro, planean entrenar gradualmente modelos PMC-LLaMA con más parámetros, entrenar PMC-LLaMA de manera continua y actualizar el modelo base en la página de hugging face.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Apple entra en la competencia de la IA generativa con el chatbot ‘AppleGPT
- Nuevo método de IA de Microsoft para predecir cómo se mueven y funcionan las moléculas
- Investigadores de KAIST y Google presentaron la destilación colaborativa de puntajes (CSD) un método de inteligencia artificial que amplía la singularidad del modelo de difusión de texto a imagen para una síntesis visual consistente.
- Un ejército de autores está instando a las empresas de IA a dejar de entrenar modelos con su trabajo
- 8 Formas de aprovechar las capacidades visuales de Google Bard
- Utilice un modelo de base de IA generativa para la síntesis y respuesta a preguntas utilizando sus propios datos
- Robot inspirado en tortugas bebé puede nadar bajo la arena