Este informe de AI de Microsoft presenta un nuevo enfoque para entrenar modelos de lenguaje imitar la comprensión de lectura humana para un rendimiento mejorado en biomedicina, finanzas y derecho.
Informe de AI de Microsoft Un nuevo enfoque para entrenar modelos de lenguaje que imiten la comprensión de lectura humana para un mejor rendimiento en biomedicina, finanzas y derecho
Los modelos de lenguaje grandes específicos de dominio han surgido debido a la saturación de los modelos de lenguaje grandes generales (LLMs por sus siglas en inglés). Tres categorías principales se pueden utilizar para agrupar las metodologías existentes. La primera construye modelos desde cero utilizando una combinación de corpora genéricos y específicos de dominio. Aunque esto produce naturalmente LLMs específicos de dominio, las necesidades computacionales y de datos importantes causan problemas serios. El segundo método, que es más económico, refina el modelo de lenguaje utilizando conjuntos de datos supervisados. Sin embargo, es necesario determinar qué tan bien los LLMs afinados pueden entender el conocimiento de dominio que se puede utilizar en todas las actividades específicas de dominio. En el tercero, se utiliza información de dominio recuperada para motivar el modelo de lenguaje general, lo que se puede ver como una aplicación de LLM en lugar de una mejora directa del LLM en sí mismo.
Los investigadores de Microsoft prueban el preentrenamiento adaptado al dominio, o el preentrenamiento continuo en corpora específicos de dominio, que creen que es útil para personalizar diferentes modelos de procesamiento de lenguaje natural para ciertos dominios. Al combinar el conocimiento específico de dominio con una capacidad amplia, este método beneficia a las actividades específicas de dominio de aguas abajo con un menor gasto. Esto impulsa su investigación sobre si el preentrenamiento continuo es igualmente ventajoso para modelos generativos extensivos. Realizan experimentos preliminares en tres dominios, biología, finanzas y derecho, y descubren que el entrenamiento adicional en los corpus sin procesar reduce drásticamente el rendimiento de las indicaciones al mismo tiempo que mantiene los beneficios para las pruebas de ajuste fino y sondeo de conocimiento. Esto nos lleva a la conclusión de que el preentrenamiento adaptado al dominio utilizando corpus sin procesar enseña al LLM sobre el dominio al tiempo que reduce su capacidad para dar indicaciones.
Figura 1 muestra un ejemplo condensado de un texto de comprensión de lectura. El texto sin procesar se sigue de una serie de tareas que se construyen a partir de él, como la resumen (púrpura), de palabra a texto (azul), inferencia de lenguaje natural (rojo), razonamiento de sentido común (verde azulado), detección de paráfrasis (amarillo) y completar el texto (verde).
- Creando un Agente LLAma 2 Empoderado con Conocimiento de Wikipedia
- ¿Está sobrevalorada la democratización de los datos?
- Cómo los científicos de datos pueden beneficiarse de usar LinkedIn más
Ofrecen un enfoque sencillo para convertir corpus sin procesar masivos en textos de comprensión de lectura para utilizar conocimiento específico de dominio y mejorar el rendimiento de las indicaciones. Cada texto sin procesar se mejora con varias tareas pertinentes a su tema, como se muestra en la Figura 1. Estos ejercicios tienen la intención de apoyar la capacidad continua del modelo para responder a consultas en lenguaje natural, dependiendo del contexto del texto original. Para mejorar aún más la capacidad de indicación, proporcionan una variedad de direcciones genéricas a los textos de comprensión de lectura. Sus pruebas en biología, economía y derecho demuestran qué tan bien su método mejora el rendimiento del modelo en numerosas tareas específicas de dominio. Llaman al modelo final, que significa Adapted Large Language Model, AdaptLLM. En el futuro, ven que este proceso se expanda para incluir la creación de un modelo de lenguaje grande genérico, agregando al lienzo cada vez más amplio de trabajos en dominios adicionales.
En conclusión, sus contribuciones consisten en:
• En su investigación sobre el preentrenamiento continuo para modelos de lenguaje grandes, descubren que si bien continuar entrenando el modelo con corpus sin procesar específicos del dominio puede proporcionar conocimiento de dominio, degrada gravemente su capacidad para dar indicaciones.
• Para aprender eficientemente el conocimiento de dominio mientras se mantiene el rendimiento de las indicaciones, presentan una receta sencilla que convierte de manera mecánica corpus sin procesar masivos en textos de comprensión de lectura. Sus pruebas demuestran que su enfoque mejora regularmente el rendimiento del modelo en tres campos distintos: biología, finanzas y derecho.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Cómo la capacitación en persona en ODSC West puede darle ventaja a su equipo
- ¡Pandas ¡Trabaja en tus dtypes!
- Amazon planea invertir hasta $4 mil millones en la innovadora startup de inteligencia artificial, Anthropic
- El fundador y CEO de NVIDIA, Jensen Huang, regresa a Denny’s donde NVIDIA lanzó una visión de billones de dólares.
- El Futuro de la Búsqueda Cómo ChatGPT, la Búsqueda por Voz y la Búsqueda de Imágenes están Revolucionando el Paisaje Digital
- Cuarta Revolución Industrial IA y Automatización
- Construyendo un Sugeridor Inteligente de Itinerarios de Viaje con LangChain, Google Maps API y Gradio (Parte 3)