Revolucionando la eficiencia de la IA El SqueezeLLM de UC Berkeley presenta la cuantificación densa y dispersa, uniendo la calidad y la velocidad en la entrega de modelos de lenguaje grandes.
SqueezeLLM de UC Berkeley revoluciona la eficiencia de la IA al presentar la cuantificación densa y dispersa, combinando calidad y velocidad en la entrega de modelos de lenguaje grandes.
Los recientes avances en los Modelos de Lenguaje Grande (LLM, por sus siglas en inglés) han demostrado su impresionante capacidad para resolver problemas en varios campos. Los LLM pueden incluir cientos de miles de millones de parámetros y son entrenados en enormes corpus de texto.
Los estudios muestran que en la inferencia de los LLM, el ancho de banda de memoria, no la CPU, es la limitación clave del rendimiento para las tareas generativas. Esto indica que la velocidad a la que los parámetros pueden ser cargados y almacenados para situaciones con memoria limitada, en lugar de las operaciones aritméticas, se convierte en la barrera clave de latencia. Sin embargo, el progreso en la tecnología de ancho de banda de memoria se ha quedado muy atrás en comparación con la computación, lo que ha dado lugar a un fenómeno conocido como la Pared de Memoria.
La cuantificación es un método prometedor que implica el almacenamiento de los parámetros del modelo con menos precisión que los habituales 16 o 32 bits utilizados durante el entrenamiento. A pesar de los recientes avances como LLaMA y sus variaciones basadas en la instrucción, sigue siendo difícil lograr un buen rendimiento de cuantificación, especialmente con una precisión de bits más baja y modelos relativamente modestos (por ejemplo, con 50 mil millones de parámetros).
- Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.
- Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.
- Aprendizaje Automático en un Espacio No Euclidiano
Un nuevo estudio de UC Berkeley investiga en profundidad la cuantificación de baja precisión para revelar las deficiencias de los métodos actuales. Basándose en estos hallazgos, los investigadores presentan SqueezeLLM, un marco de cuantificación posterior al entrenamiento que combina una técnica de descomposición densa y dispersa con una estrategia de cuantificación no uniforme basada en la sensibilidad. Estos métodos permiten la cuantificación con una precisión ultra baja de bits al tiempo que se conserva un rendimiento competitivo del modelo, reduciendo drásticamente los tamaños del modelo y los costos de tiempo de inferencia. Su método reduce la perplejidad del modelo LLaMA-7B a 3 bits de precisión de 28.26 con cuantificación uniforme a 7.75 en el conjunto de datos C4, lo que supone una mejora considerable.
A través de pruebas exhaustivas en los bancos de pruebas C4 y WikiText2, los investigadores descubrieron que SqueezeLLM supera constantemente a los enfoques de cuantificación existentes por un margen considerable en diferentes precisiones de bits cuando se aplica a LLaMA-7B, 13B y 30B para tareas de modelado de lenguaje.
Según el equipo, la cuantificación de baja precisión de muchos LLM es particularmente difícil debido a los valores atípicos sustanciales en las matrices de peso. Estos valores atípicos también afectan su enfoque de cuantificación no uniforme ya que sesgan la asignación de bits hacia valores extremadamente altos o bajos. Para eliminar los valores atípicos, proporcionan un método sencillo que divide los pesos del modelo en componentes densos y dispersos. Al aislar los valores extremos, la región central muestra un rango más estrecho de hasta 10, lo que resulta en una mejor precisión de cuantificación. Con métodos eficientes de almacenamiento disperso como Compressed Sparse Rows (CSR), los datos dispersos se pueden mantener en precisión completa. Este método incurre en una sobrecarga baja utilizando núcleos dispersos eficientes para la mitad dispersa y paralelizando la computación junto con la parte densa.
El equipo demuestra el potencial de su marco para cuantificar modelos IF aplicando SqueezeLLM a los modelos Vicuna-7B y 13B. Comparan dos sistemas en sus pruebas. En primer lugar, utilizan el conjunto de datos MMLU, una prueba múltiple que mide el conocimiento y las habilidades de resolución de problemas de un modelo, para evaluar la calidad de la salida generada. También utilizan GPT-4 para clasificar la calidad de generación de los modelos cuantificados en relación con la línea de base de FP16, utilizando la metodología de evaluación presentada en Vicuna. En ambos bancos de pruebas, SqueezeLLM supera regularmente a GPTQ y AWQ, dos enfoques actuales líderes en el estado del arte. En particular, en ambas evaluaciones, el modelo cuantificado de 4 bits funciona tan bien como la línea de base.
El trabajo muestra reducciones considerable de latencia y avances en el rendimiento de cuantificación con sus modelos que se ejecutan en GPUs A6000. Los investigadores demuestran mejoras de velocidad de hasta 2.3 en comparación con la inferencia de línea de base FP16 para LLaMA-7B y 13B. Además, el método propuesto logra hasta 4 veces más rapidez en latencia que GPTQ, demostrando su eficacia en el rendimiento de cuantificación y eficiencia de inferencia.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Una Guía Completa sobre Redes Neuronales Convolucionales
- Búsqueda de similitud, Parte 4 Hierarchical Navigable Small World (HNSW)
- Búsqueda de similitud, Parte 3 Mezclando el índice de archivo invertido y la cuantificación de productos.
- Inferencia Variacional Lo Básico
- Aprendiendo la Estimación de Poses Usando Nuevas Técnicas de Visión por Computadora
- ¡Hola GPU, ¿qué hay de mi matriz?
- Dominando la Gestión de Configuración en Aprendizaje Automático con Hydra.