Revolucionando la eficiencia de la IA El SqueezeLLM de UC Berkeley presenta la cuantificación densa y dispersa, uniendo la calidad y la velocidad en la entrega de modelos de lenguaje grandes.

SqueezeLLM de UC Berkeley revoluciona la eficiencia de la IA al presentar la cuantificación densa y dispersa, combinando calidad y velocidad en la entrega de modelos de lenguaje grandes.

Los recientes avances en los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) han demostrado su impresionante capacidad para resolver problemas en varios campos. Los LLM pueden incluir cientos de miles de millones de parámetros y son entrenados en enormes corpus de texto.

Los estudios muestran que en la inferencia de los LLM, el ancho de banda de memoria, no la CPU, es la limitación clave del rendimiento para las tareas generativas. Esto indica que la velocidad a la que los parámetros pueden ser cargados y almacenados para situaciones con memoria limitada, en lugar de las operaciones aritméticas, se convierte en la barrera clave de latencia. Sin embargo, el progreso en la tecnología de ancho de banda de memoria se ha quedado muy atrás en comparación con la computación, lo que ha dado lugar a un fenómeno conocido como la Pared de Memoria.

La cuantificación es un método prometedor que implica el almacenamiento de los parámetros del modelo con menos precisión que los habituales 16 o 32 bits utilizados durante el entrenamiento. A pesar de los recientes avances como LLaMA y sus variaciones basadas en la instrucción, sigue siendo difícil lograr un buen rendimiento de cuantificación, especialmente con una precisión de bits más baja y modelos relativamente modestos (por ejemplo, con 50 mil millones de parámetros).

Un nuevo estudio de UC Berkeley investiga en profundidad la cuantificación de baja precisión para revelar las deficiencias de los métodos actuales. Basándose en estos hallazgos, los investigadores presentan SqueezeLLM, un marco de cuantificación posterior al entrenamiento que combina una técnica de descomposición densa y dispersa con una estrategia de cuantificación no uniforme basada en la sensibilidad. Estos métodos permiten la cuantificación con una precisión ultra baja de bits al tiempo que se conserva un rendimiento competitivo del modelo, reduciendo drásticamente los tamaños del modelo y los costos de tiempo de inferencia. Su método reduce la perplejidad del modelo LLaMA-7B a 3 bits de precisión de 28.26 con cuantificación uniforme a 7.75 en el conjunto de datos C4, lo que supone una mejora considerable.

A través de pruebas exhaustivas en los bancos de pruebas C4 y WikiText2, los investigadores descubrieron que SqueezeLLM supera constantemente a los enfoques de cuantificación existentes por un margen considerable en diferentes precisiones de bits cuando se aplica a LLaMA-7B, 13B y 30B para tareas de modelado de lenguaje.

Según el equipo, la cuantificación de baja precisión de muchos LLM es particularmente difícil debido a los valores atípicos sustanciales en las matrices de peso. Estos valores atípicos también afectan su enfoque de cuantificación no uniforme ya que sesgan la asignación de bits hacia valores extremadamente altos o bajos. Para eliminar los valores atípicos, proporcionan un método sencillo que divide los pesos del modelo en componentes densos y dispersos. Al aislar los valores extremos, la región central muestra un rango más estrecho de hasta 10, lo que resulta en una mejor precisión de cuantificación. Con métodos eficientes de almacenamiento disperso como Compressed Sparse Rows (CSR), los datos dispersos se pueden mantener en precisión completa. Este método incurre en una sobrecarga baja utilizando núcleos dispersos eficientes para la mitad dispersa y paralelizando la computación junto con la parte densa.

El equipo demuestra el potencial de su marco para cuantificar modelos IF aplicando SqueezeLLM a los modelos Vicuna-7B y 13B. Comparan dos sistemas en sus pruebas. En primer lugar, utilizan el conjunto de datos MMLU, una prueba múltiple que mide el conocimiento y las habilidades de resolución de problemas de un modelo, para evaluar la calidad de la salida generada. También utilizan GPT-4 para clasificar la calidad de generación de los modelos cuantificados en relación con la línea de base de FP16, utilizando la metodología de evaluación presentada en Vicuna. En ambos bancos de pruebas, SqueezeLLM supera regularmente a GPTQ y AWQ, dos enfoques actuales líderes en el estado del arte. En particular, en ambas evaluaciones, el modelo cuantificado de 4 bits funciona tan bien como la línea de base.

El trabajo muestra reducciones considerable de latencia y avances en el rendimiento de cuantificación con sus modelos que se ejecutan en GPUs A6000. Los investigadores demuestran mejoras de velocidad de hasta 2.3 en comparación con la inferencia de línea de base FP16 para LLaMA-7B y 13B. Además, el método propuesto logra hasta 4 veces más rapidez en latencia que GPTQ, demostrando su eficacia en el rendimiento de cuantificación y eficiencia de inferencia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Sam Altman despedido como CEO de OpenAI

En un giro sorprendente de los acontecimientos, OpenAI, el principal laboratorio de investigación en inteligencia art...

Inteligencia Artificial

Implementa fácilmente SVM multicategoría desde cero en Python

En esta historia, implementaremos el algoritmo de aprendizaje de máquina de vector de soporte en su forma de margen s...

Inteligencia Artificial

Experimenta la Realidad Aumentada (AR) directamente con tus propios ojos utilizando la IA

En un avance tecnológico, Brilliant Labs ha revolucionado el mercado de la Realidad Aumentada con su innovadora lente...

Inteligencia Artificial

Genera publicidad creativa utilizando inteligencia artificial generativa implementada en Amazon SageMaker

La publicidad creativa tiene el potencial de ser revolucionada por la IA generativa (GenAI). Ahora puedes crear una a...