Quantización y cía. Reduciendo los tiempos de inferencia en LLMs en un 80%
Optimización y compañía Reducción del tiempo de inferencia en LLMs en un 80%
![Fuente: https://www.pexels.com/photo/cultivo-en-otono-18684338/](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*zJ7gXxebSBbM10Ip8CbZoQ.jpeg)
La cuantización es una técnica utilizada para una serie de algoritmos diferentes, pero ha ganado prevalencia con la reciente afluencia de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). En este artículo, mi objetivo es proporcionar información sobre la cuantización de LLMs y el impacto que esta técnica puede tener en la ejecución de estos modelos de manera local. También presentaré una estrategia diferente a la cuantización que puede reducir aún más los requisitos computacionales para ejecutar estos modelos. Además, explicaré por qué estas técnicas pueden ser de interés para usted y le mostraré algunos benchmarks con ejemplos de código para demostrar la eficacia de estas técnicas. También mencionaré brevemente los requisitos/recomendaciones de hardware y las herramientas modernas disponibles para lograr sus objetivos con LLMs en su máquina. En un artículo posterior, planeo proporcionar instrucciones paso a paso y código para ajustar finamente su propio LLM, así que esté atento a eso.
TL;DR: al cuantizar nuestro LLM y cambiar el tipo de tensor, podemos ejecutar inferencias en un LLM con el doble de parámetros y, al mismo tiempo, reducir el tiempo de ejecución un 80%.
Como siempre, si desea discutir cualquier tema que cubra aquí, no dude en contactarme.
Todas las opiniones en este artículo son mías. Este artículo no está patrocinado.
- Ciencia de la decisión se encuentra con el diseño
- IBM presenta un chip de computadora inspirado en el cerebro que podría impulsar la inteligencia artificial (IA) al trabajar más rápido con mucha menos energía.
- Shyam Bhojwani sobre automatización, transformación digital, ciberseguridad y el futuro de los roles en IT
¿Qué es la cuantización (de LLMs)?
La cuantización nos permite reducir el tamaño de nuestras redes neuronales convirtiendo los pesos y sesgos de la red desde su formato original de punto flotante (por ejemplo, 32 bits) a un formato de menor precisión (por ejemplo, 8 bits). El formato original de punto flotante puede variar según varios factores, como la arquitectura y los procesos de entrenamiento del modelo. El propósito final de la cuantización es reducir el tamaño de nuestro modelo, lo que a su vez reduce los requisitos de memoria y computacionales para ejecutar inferencias y entrenar nuestro modelo. La cuantización puede volverse complicada rápidamente si intenta cuantizar los modelos usted mismo. Esto se debe en gran parte a la falta de soporte de hardware por parte de proveedores específicos. Afortunadamente, esto se puede evitar mediante el uso de servicios y software de terceros específicos.
Personalmente, he tenido que sortear varios obstáculos para cuantizar LLMs como Llama-2 de Meta en mi Mac. Esto se debe en gran parte a la falta de soporte para bibliotecas estándar (o cualquier cosa con núcleos CUDA personalizados). Herramientas de terceros como…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La Vanguardia de la Evolución de los Agentes de Inteligencia Artificial (IA)
- ¡Bill Gates cuestiona el futuro de la IA generativa!
- Detección de valores atípicos con Scikit-Learn y Matplotlib una guía práctica
- Predicción de la medición del registro de pozo utilizando redes neuronales con Keras
- Gestionando múltiples versiones de CUDA en una sola máquina Una guía completa
- Cómo crear una visualización de grafo de red de series temporales en Python
- ¿Qué formato de datos utilizar para tu proyecto de Big Data?