Este informe de AI de Microsoft presenta un nuevo enfoque para entrenar modelos de lenguaje imitar la comprensión de lectura humana para un rendimiento mejorado en biomedicina, finanzas y derecho.

Informe de AI de Microsoft Un nuevo enfoque para entrenar modelos de lenguaje que imiten la comprensión de lectura humana para un mejor rendimiento en biomedicina, finanzas y derecho

Los modelos de lenguaje grandes específicos de dominio han surgido debido a la saturación de los modelos de lenguaje grandes generales (LLMs por sus siglas en inglés). Tres categorías principales se pueden utilizar para agrupar las metodologías existentes. La primera construye modelos desde cero utilizando una combinación de corpora genéricos y específicos de dominio. Aunque esto produce naturalmente LLMs específicos de dominio, las necesidades computacionales y de datos importantes causan problemas serios. El segundo método, que es más económico, refina el modelo de lenguaje utilizando conjuntos de datos supervisados. Sin embargo, es necesario determinar qué tan bien los LLMs afinados pueden entender el conocimiento de dominio que se puede utilizar en todas las actividades específicas de dominio. En el tercero, se utiliza información de dominio recuperada para motivar el modelo de lenguaje general, lo que se puede ver como una aplicación de LLM en lugar de una mejora directa del LLM en sí mismo. 

Los investigadores de Microsoft prueban el preentrenamiento adaptado al dominio, o el preentrenamiento continuo en corpora específicos de dominio, que creen que es útil para personalizar diferentes modelos de procesamiento de lenguaje natural para ciertos dominios. Al combinar el conocimiento específico de dominio con una capacidad amplia, este método beneficia a las actividades específicas de dominio de aguas abajo con un menor gasto. Esto impulsa su investigación sobre si el preentrenamiento continuo es igualmente ventajoso para modelos generativos extensivos. Realizan experimentos preliminares en tres dominios, biología, finanzas y derecho, y descubren que el entrenamiento adicional en los corpus sin procesar reduce drásticamente el rendimiento de las indicaciones al mismo tiempo que mantiene los beneficios para las pruebas de ajuste fino y sondeo de conocimiento. Esto nos lleva a la conclusión de que el preentrenamiento adaptado al dominio utilizando corpus sin procesar enseña al LLM sobre el dominio al tiempo que reduce su capacidad para dar indicaciones. 

Figura 1 muestra un ejemplo condensado de un texto de comprensión de lectura. El texto sin procesar se sigue de una serie de tareas que se construyen a partir de él, como la resumen (púrpura), de palabra a texto (azul), inferencia de lenguaje natural (rojo), razonamiento de sentido común (verde azulado), detección de paráfrasis (amarillo) y completar el texto (verde). 

Ofrecen un enfoque sencillo para convertir corpus sin procesar masivos en textos de comprensión de lectura para utilizar conocimiento específico de dominio y mejorar el rendimiento de las indicaciones. Cada texto sin procesar se mejora con varias tareas pertinentes a su tema, como se muestra en la Figura 1. Estos ejercicios tienen la intención de apoyar la capacidad continua del modelo para responder a consultas en lenguaje natural, dependiendo del contexto del texto original. Para mejorar aún más la capacidad de indicación, proporcionan una variedad de direcciones genéricas a los textos de comprensión de lectura. Sus pruebas en biología, economía y derecho demuestran qué tan bien su método mejora el rendimiento del modelo en numerosas tareas específicas de dominio. Llaman al modelo final, que significa Adapted Large Language Model, AdaptLLM. En el futuro, ven que este proceso se expanda para incluir la creación de un modelo de lenguaje grande genérico, agregando al lienzo cada vez más amplio de trabajos en dominios adicionales. 

En conclusión, sus contribuciones consisten en: 

• En su investigación sobre el preentrenamiento continuo para modelos de lenguaje grandes, descubren que si bien continuar entrenando el modelo con corpus sin procesar específicos del dominio puede proporcionar conocimiento de dominio, degrada gravemente su capacidad para dar indicaciones. 

• Para aprender eficientemente el conocimiento de dominio mientras se mantiene el rendimiento de las indicaciones, presentan una receta sencilla que convierte de manera mecánica corpus sin procesar masivos en textos de comprensión de lectura. Sus pruebas demuestran que su enfoque mejora regularmente el rendimiento del modelo en tres campos distintos: biología, finanzas y derecho.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft proponen PIT (Transformación Permutación Invariante) un compilador de aprendizaje profundo para la escasez dinámica.

Recientemente, el aprendizaje profundo se ha caracterizado por un aumento en la investigación orientada a optimizar m...

Inteligencia Artificial

Molino de Turing la supercomputadora de IA impulsa el motor económico del Reino Unido

El hogar de la primera revolución industrial acaba de hacer una inversión masiva en la próxima. El gobierno del Reino...

Ciencia de Datos

10 Preguntas más frecuentes sobre listas en Python en Stack Overflow

Stack Overflow es una mina de oro de información donde puedes encontrar miles de preguntas y respuestas en software, ...

Inteligencia Artificial

La Escuela de Ingeniería da la bienvenida a Songyee Yoon, PhD '00, como investigadora visitante de innovación.

Un emprendedor e innovador visionario, Yoon se enfocará en el emprendimiento, el apoyo a las ingenieras mujeres y el ...

Inteligencia Artificial

Los Juegos Asiáticos, un hito para los eSports que alimenta los sueños olímpicos

En los Juegos Asiáticos de Hangzhou, China, los jugadores de eSports tendrán la oportunidad de ganar medallas por pri...