Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

Explora LoftQ, una técnica de cuantización consciente del ajuste fino de LoRA para grandes modelos de lenguaje.

La introducción de los Modelos de Lenguaje Pre-entrenados (PLMs) ha significado un cambio transformador en el campo del Procesamiento del Lenguaje Natural. Han demostrado una habilidad excepcional para realizar una amplia gama de tareas de lenguaje, incluyendo la Comprensión del Lenguaje Natural (NLU) y la Generación del Lenguaje Natural (NLG). Estos modelos suelen incorporar millones e incluso miles de millones de parámetros, lo que lleva a requisitos computacionales y de memoria sustanciales. Sin embargo, las considerables necesidades computacionales y de memoria de estos modelos presentan desafíos significativos, como ha reconocido la comunidad de investigación.

En este artículo, los autores presentan un novedoso marco de cuantización conocido como Cuantización Consciente de Afinación Fina de LoRA-LoftQ). Este marco está especialmente diseñado para modelos pre-entrenados que requieren cuantización y afinación fina de LoRA. El marco combina activamente la aproximación de baja rango, trabajando en conjunto con la cuantización para aproximar conjuntamente los pesos pre-entrenados de alta precisión originales.

La imagen anterior demuestra el rendimiento de QLoRA con diferentes bits. A la izquierda: inicialización de QLoRA de LLAMA-2-13b en WikiText-2. A la derecha: Aplicación de QLoRA a LLAMA-2-13b en la tarea de modelado del lenguaje WikiText-2. Un menor valor de perplejidad indica un mejor rendimiento.

Métodos de cuantización. Aplicamos dos métodos de cuantización para demostrar que LoRA-LoftQ es compatible con diferentes funciones de cuantización:

• La cuantización uniforme es un método clásico de cuantización. Divide uniformemente un intervalo continuo en 2N categorías y almacena un valor absoluto máximo local para la decuantización.

• NF4 y su variante de 2 bits, NF2, son métodos de cuantización utilizados en QLoRA. Suponen que los valores de alta precisión se extraen de una distribución gaussiana y mapean estos valores a ranuras discretas que tienen la misma probabilidad.

Realizamos cuantización de 2 bits y 4 bits en todos los modelos, logrando relaciones de compresión del 25-30% y del 15-20% para los niveles de 4 bits y 2 bits, respectivamente. Todos los experimentos se realizan en tarjetas gráficas NVIDIA A100.

La evaluación de su marco de cuantización se lleva a cabo a través de experimentos extensivos en diversas tareas secundarias, incluyendo NLU, respuesta a preguntas, sumarización y NLG. Los resultados de estos experimentos demuestran que LoftQ supera consistentemente a QLoRA en todos los niveles de precisión. Por ejemplo, con una cuantización de 4 bits, alcanzan una mejora de 1,1 y 0,8 en Rouge-1 para XSum y CNN/DailyMail, respectivamente. A medida que el campo de NLP continúa avanzando, se espera que más innovaciones y optimizaciones ayuden a cerrar la brecha entre el inmenso potencial de los PLMs y su implementación práctica, beneficiando a una amplia gama de aplicaciones y usuarios.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.

Was this article helpful?

¿Pueden los desarrolladores reducir el costo total de propiedad del software con IA?

Las 5 mejores plataformas y herramientas de aprendizaje automático en la nube

Inteligencia Artificial

Investigadores de Microsoft proponen Modelos Gráficos Neuronales (MGN) un nuevo tipo de Modelos Gráficos Probabilísticos (MGP) que aprende a representar la función de probabilidad sobre el dominio utilizando una Red Neuronal Profunda

Microsoft lanza TypeChat una biblioteca de IA que facilita la creación de interfaces de lenguaje natural utilizando tipos.

Investigadores de Stanford presentan HyenaDNA un modelo genómico de base de largo alcance con longitudes de contexto de hasta 1 millón de tokens a una resolución de nucleótido único.

Investigadores de Stanford presentan un novedoso método de inteligencia artificial que puede descomponer eficaz y eficientemente el sombreado en una representación estructurada en forma de árbol'.

Este documento de IA desbloquea el secreto del aprendizaje en contexto cómo los modelos de lenguaje codifican funciones en la magia de vectores

Herramientas/Plataformas principales para la Optimización de Hiperparámetros 2023