Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Microsoft AI presenta LLMLingua una técnica única de compresión rápida para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés), debido a su gran capacidad de generalización y razonamiento, han mejorado significativamente la comunidad de Inteligencia Artificial (IA). Estos modelos han demostrado ser notablemente capaces y han mostrado las habilidades de Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés), Generación del Lenguaje Natural (NLG, por sus siglas en inglés), Visión por Computadora, entre otras. Sin embargo, nuevos avances, incluyendo el aprendizaje en contexto (ICL, por sus siglas en inglés) y la generación en cadena de pensamiento (CoT, por sus siglas en inglés), han llevado a la implementación de promps más largos, a veces incluso con más de miles de tokens. Esto presenta problemas para la inferencia del modelo en términos de relación costo-efectividad y eficiencia computacional.

Para superar estos desafíos, un equipo de investigadores de Microsoft Corporation ha introducido LLMLingua, una técnica única de compresión rápida de grosso a fino. LLMLingua ha sido desarrollado con el objetivo principal de minimizar los gastos relacionados con el procesamiento de promps largos y acelerar la inferencia del modelo. Para lograr esto, LLMLingua utiliza algunas estrategias esenciales, que son las siguientes.

Controlador de Presupuesto: Se ha creado un controlador de presupuesto dinámico para gobernar cómo se distribuyen las tasas de compresión entre las diferentes partes de los promps originales. Esto asegura que la integridad semántica de los promps se mantenga incluso con tasas de compresión grandes.

Algoritmo de Compresión Iterativo a Nivel de Token: Un algoritmo de compresión iterativo a nivel de token se ha integrado en LLMLingua. Esta técnica permite una compresión más sofisticada al capturar la interdependencia entre los elementos comprimidos mientras se mantiene información crucial sobre el prompt.

Enfoque Basado en Ajuste de Instrucciones: El equipo ha sugerido un enfoque basado en ajuste de instrucciones para solucionar el problema de la desalineación de la distribución entre los modelos de lenguaje. Alinear la distribución del modelo de lenguaje mejora la compatibilidad entre el pequeño modelo de lenguaje utilizado para la compresión rápida y el LLM deseado.

El equipo ha realizado el análisis y los experimentos utilizando cuatro conjuntos de datos de diferentes circunstancias para validar la utilidad de LLMLingua. Los conjuntos de datos son GSM8K y BBH para el razonamiento, ShareGPT para la conversación y Arxiv-March23 para la resumación. Los resultados han mostrado que el enfoque sugerido logra un rendimiento de vanguardia en cada una de estas circunstancias. Los resultados incluso demostraron que LLMLingua permite una compresión significativa de hasta 20 veces a costa de sacrificar muy poco en términos de rendimiento.

El pequeño modelo de lenguaje utilizado en los experimentos fue LLaMA-7B, y el LLM cerrado fue GPT-3.5-Turbo-0301. LLMLingua superó las técnicas de compresión anteriores al mantener las habilidades de razonamiento, resumido y discurso incluso en una relación de compresión máxima de 20x, lo que demuestra resistencia, economía, eficacia y recuperabilidad.

La eficacia de LLMLingua se ha observado en una variedad de LLM cerrados y pequeños modelos de lenguaje. LLMLingua mostró buenos resultados de rendimiento, coincidiendo en gran medida con modelos más grandes al utilizar GPT-2-small. También ha demostrado ser exitoso con LLMs sólidos, superando los resultados rápidos esperados.

La recuperabilidad de LLMLingua es un aspecto notable, ya que GPT-4 recuperó eficazmente información de razonamiento importante de la completación CoT de nueve pasos completos cuando se usó para restaurar promps comprimidos, manteniendo el significado y la similitud de los promps originales. Esta función garantiza la recuperabilidad y mantiene información crucial incluso después de la traducción, lo que añade impresionante global de LLMLingua.

En conclusión, LLMLingua ha proporcionado una solución integral a las dificultades presentadas por los promps largos en aplicaciones de LLM. El método demuestra un excelente rendimiento y ofrece una forma útil de mejorar la efectividad y la asequibilidad de las aplicaciones basadas en LLM.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Microsoft AI lanza LLMLingua una técnica única de compresión rápida que comprime los mensajes para acelerar la inferencia de Modelos de Lenguaje Grandes (LLMs)

Was this article helpful?

Crea una tubería de MLOps de principio a fin utilizando Amazon SageMaker Pipelines, GitHub y GitHub Actions

Nadie está a salvo de la inyección de comandos de LLM

Inteligencia Artificial

8 cosas potencialmente sorprendentes que debes saber sobre los Modelos de Lenguaje Grandes (LLMs)

Investigadores de Stanford presentan RT-Sketch Mejorando el aprendizaje de imitación visual a través de bocetos dibujados a mano como especificaciones de objetivo

Conoce Jupyter AI Desatando el poder de la inteligencia artificial en los cuadernos de Jupyter

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Nueva herramienta de imagen basada en HADAR te permite ver claramente en la oscuridad

Conoce GPT Crawler una herramienta de IA que puede rastrear un sitio para generar archivos de conocimiento y crear un GPT personalizado a partir de una o varias URL.