4-bit Cuantización con GPTQ

4-bit Cuantización GPTQ

Quantiza tus propios LLM utilizando AutoGPTQ

Imagen por el autor

Los avances recientes en la cuantización de pesos nos permiten ejecutar modelos de lenguaje grandes masivos en hardware de consumo, como un modelo LLaMA-30B en una GPU RTX 3090. Esto es posible gracias a nuevas técnicas de cuantización de 4 bits con una degradación mínima del rendimiento, como GPTQ, GGML y NF4.

En el artículo anterior, presentamos técnicas de cuantización ingenuas de 8 bits y la excelente función LLM.int8(). En este artículo, exploraremos el popular algoritmo GPTQ para comprender cómo funciona e implementarlo utilizando la biblioteca AutoGPTQ.

Puedes encontrar el código en Google Colab y GitHub.

🧠 Cuantización óptima del cerebro

Comencemos presentando el problema que estamos tratando de resolver. Para cada capa ℓ en la red, queremos encontrar una versión cuantizada Ŵₗ de los pesos originales Wₗ. Esto se llama el problema de compresión por capas. Más específicamente, para minimizar la degradación del rendimiento, queremos que las salidas (ŴXᵨ) de estos nuevos pesos sean lo más cercanas posible a las originales (WXᵨ). En otras palabras, queremos encontrar:

Se han propuesto diferentes enfoques para resolver este problema, pero aquí nos interesa el marco del Cuantizador Óptimo del Cerebro (OBQ).

Este método está inspirado en una técnica de poda para eliminar cuidadosamente pesos de una red neuronal densa completamente entrenada (Optimal Brain Surgeon). Utiliza una técnica de aproximación y proporciona fórmulas explícitas para el mejor peso individual w𐞥 a eliminar y la actualización óptima δꟳ para ajustar el conjunto de pesos no cuantizados restantes F para compensar la eliminación:

donde quant(w) es el redondeo de peso dado por la cuantización y Hꟳ es el Hessiano.

Usando OBQ, podemos cuantizar el peso más fácil primero y luego ajustar todos los pesos no cuantizados restantes para compensar esta pérdida de precisión. Luego seleccionamos el siguiente peso a cuantizar, y así sucesivamente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

SalesForce AI Research BannerGen Una biblioteca de código abierto para la generación de banners de múltiples modalidades.

El diseño gráfico efectivo es el pilar de una campaña de marketing exitosa. Actúa como un puente de comunicación entr...

Ciencias de la Computación

Después de un año difícil, Zuckerberg presenta el plan de Meta a los empleados.

En una reunión interna de toda la empresa, el director ejecutivo explicó sus planes para la inteligencia artificial, ...

Ciencia de Datos

Incorpore SageMaker Autopilot en sus procesos de MLOps usando un Proyecto personalizado de SageMaker.

Cada organización tiene su propio conjunto de estándares y prácticas que proporcionan seguridad y gobernanza para su ...

Inteligencia Artificial

Herramientas de IA Generativa se están quedando rápidamente 'sin texto' para entrenarse

Es la última preocupación planteada en relación a las prácticas de recopilación de datos de OpenAI y otros desarrolla...

Ciencias de la Computación

La inteligencia artificial se utilizó para crear una nueva canción final de los Beatles, según Paul McCartney.

El músico dice que utilizó tecnología para 'extraer' la voz de John Lennon de una vieja demo y completar una canción ...