Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

Explora LoftQ, una técnica de cuantización consciente del ajuste fino de LoRA para grandes modelos de lenguaje.

La introducción de los Modelos de Lenguaje Pre-entrenados (PLMs) ha significado un cambio transformador en el campo del Procesamiento del Lenguaje Natural. Han demostrado una habilidad excepcional para realizar una amplia gama de tareas de lenguaje, incluyendo la Comprensión del Lenguaje Natural (NLU) y la Generación del Lenguaje Natural (NLG). Estos modelos suelen incorporar millones e incluso miles de millones de parámetros, lo que lleva a requisitos computacionales y de memoria sustanciales. Sin embargo, las considerables necesidades computacionales y de memoria de estos modelos presentan desafíos significativos, como ha reconocido la comunidad de investigación.

En este artículo, los autores presentan un novedoso marco de cuantización conocido como Cuantización Consciente de Afinación Fina de LoRA-LoftQ). Este marco está especialmente diseñado para modelos pre-entrenados que requieren cuantización y afinación fina de LoRA. El marco combina activamente la aproximación de baja rango, trabajando en conjunto con la cuantización para aproximar conjuntamente los pesos pre-entrenados de alta precisión originales.

La imagen anterior demuestra el rendimiento de QLoRA con diferentes bits. A la izquierda: inicialización de QLoRA de LLAMA-2-13b en WikiText-2. A la derecha: Aplicación de QLoRA a LLAMA-2-13b en la tarea de modelado del lenguaje WikiText-2. Un menor valor de perplejidad indica un mejor rendimiento.

Métodos de cuantización. Aplicamos dos métodos de cuantización para demostrar que LoRA-LoftQ es compatible con diferentes funciones de cuantización:

• La cuantización uniforme es un método clásico de cuantización. Divide uniformemente un intervalo continuo en 2N categorías y almacena un valor absoluto máximo local para la decuantización.

• NF4 y su variante de 2 bits, NF2, son métodos de cuantización utilizados en QLoRA. Suponen que los valores de alta precisión se extraen de una distribución gaussiana y mapean estos valores a ranuras discretas que tienen la misma probabilidad.

Realizamos cuantización de 2 bits y 4 bits en todos los modelos, logrando relaciones de compresión del 25-30% y del 15-20% para los niveles de 4 bits y 2 bits, respectivamente. Todos los experimentos se realizan en tarjetas gráficas NVIDIA A100.

La evaluación de su marco de cuantización se lleva a cabo a través de experimentos extensivos en diversas tareas secundarias, incluyendo NLU, respuesta a preguntas, sumarización y NLG. Los resultados de estos experimentos demuestran que LoftQ supera consistentemente a QLoRA en todos los niveles de precisión. Por ejemplo, con una cuantización de 4 bits, alcanzan una mejora de 1,1 y 0,8 en Rouge-1 para XSum y CNN/DailyMail, respectivamente. A medida que el campo de NLP continúa avanzando, se espera que más innovaciones y optimizaciones ayuden a cerrar la brecha entre el inmenso potencial de los PLMs y su implementación práctica, beneficiando a una amplia gama de aplicaciones y usuarios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Microsoft lanza TypeChat una biblioteca de IA que facilita la creación de interfaces de lenguaje natural utilizando tipos.

La biblioteca TypeChat de Microsoft es un intento de facilitar la creación de interfaces de lenguaje natural basadas ...

Inteligencia Artificial

Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

En los modelos de lenguaje transformadores autoregresivos, se identifica un mecanismo neuronal que representa una fun...

Inteligencia Artificial

Herramientas/Plataformas principales para la Optimización de Hiperparámetros 2023

Los hiperparámetros son parámetros utilizados para regular el comportamiento del algoritmo mientras crea el modelo. E...