Conoce LoftQ LoRA-Fine-Tuning-Aware Quantization para grandes modelos de lenguaje.
Explora LoftQ, una técnica de cuantización consciente del ajuste fino de LoRA para grandes modelos de lenguaje.
La introducción de los Modelos de Lenguaje Pre-entrenados (PLMs) ha significado un cambio transformador en el campo del Procesamiento del Lenguaje Natural. Han demostrado una habilidad excepcional para realizar una amplia gama de tareas de lenguaje, incluyendo la Comprensión del Lenguaje Natural (NLU) y la Generación del Lenguaje Natural (NLG). Estos modelos suelen incorporar millones e incluso miles de millones de parámetros, lo que lleva a requisitos computacionales y de memoria sustanciales. Sin embargo, las considerables necesidades computacionales y de memoria de estos modelos presentan desafíos significativos, como ha reconocido la comunidad de investigación.
En este artículo, los autores presentan un novedoso marco de cuantización conocido como Cuantización Consciente de Afinación Fina de LoRA-LoftQ). Este marco está especialmente diseñado para modelos pre-entrenados que requieren cuantización y afinación fina de LoRA. El marco combina activamente la aproximación de baja rango, trabajando en conjunto con la cuantización para aproximar conjuntamente los pesos pre-entrenados de alta precisión originales.
La imagen anterior demuestra el rendimiento de QLoRA con diferentes bits. A la izquierda: inicialización de QLoRA de LLAMA-2-13b en WikiText-2. A la derecha: Aplicación de QLoRA a LLAMA-2-13b en la tarea de modelado del lenguaje WikiText-2. Un menor valor de perplejidad indica un mejor rendimiento.
- ¿Pueden los desarrolladores reducir el costo total de propiedad del software con IA?
- 8 Estrategias para acelerar el desarrollo de portales web
- Una guía completa para crear un asistente de IA para resumir videos de YouTube – Parte 1
Métodos de cuantización. Aplicamos dos métodos de cuantización para demostrar que LoRA-LoftQ es compatible con diferentes funciones de cuantización:
• La cuantización uniforme es un método clásico de cuantización. Divide uniformemente un intervalo continuo en 2N categorías y almacena un valor absoluto máximo local para la decuantización.
• NF4 y su variante de 2 bits, NF2, son métodos de cuantización utilizados en QLoRA. Suponen que los valores de alta precisión se extraen de una distribución gaussiana y mapean estos valores a ranuras discretas que tienen la misma probabilidad.
Realizamos cuantización de 2 bits y 4 bits en todos los modelos, logrando relaciones de compresión del 25-30% y del 15-20% para los niveles de 4 bits y 2 bits, respectivamente. Todos los experimentos se realizan en tarjetas gráficas NVIDIA A100.
La evaluación de su marco de cuantización se lleva a cabo a través de experimentos extensivos en diversas tareas secundarias, incluyendo NLU, respuesta a preguntas, sumarización y NLG. Los resultados de estos experimentos demuestran que LoftQ supera consistentemente a QLoRA en todos los niveles de precisión. Por ejemplo, con una cuantización de 4 bits, alcanzan una mejora de 1,1 y 0,8 en Rouge-1 para XSum y CNN/DailyMail, respectivamente. A medida que el campo de NLP continúa avanzando, se espera que más innovaciones y optimizaciones ayuden a cerrar la brecha entre el inmenso potencial de los PLMs y su implementación práctica, beneficiando a una amplia gama de aplicaciones y usuarios.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¿Cómo optimizar los ingresos utilizando la fijación dinámica de precios?
- ¡Conoce a nuestro nuevo tutor de IA!
- 5 libros gratuitos para dominar el aprendizaje automático
- El Orden Importa Cómo la Inteligencia Artificial Lucha con la Inversa
- Investigadores de Microsoft presentan Table-GPT Elevando modelos de lenguaje para destacar en la comprensión de tablas bidimensionales y tareas relacionadas.
- Solo usa LLMs si sabes cómo hacer la tarea por ti mismo/a
- ¿Cómo construir una aplicación de búsqueda multi-modal con Chroma?