Quantización y cía. Reduciendo los tiempos de inferencia en LLMs en un 80%

Optimización y compañía Reducción del tiempo de inferencia en LLMs en un 80%

Fuente: https://www.pexels.com/photo/cultivo-en-otono-18684338/

La cuantización es una técnica utilizada para una serie de algoritmos diferentes, pero ha ganado prevalencia con la reciente afluencia de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés). En este artículo, mi objetivo es proporcionar información sobre la cuantización de LLMs y el impacto que esta técnica puede tener en la ejecución de estos modelos de manera local. También presentaré una estrategia diferente a la cuantización que puede reducir aún más los requisitos computacionales para ejecutar estos modelos. Además, explicaré por qué estas técnicas pueden ser de interés para usted y le mostraré algunos benchmarks con ejemplos de código para demostrar la eficacia de estas técnicas. También mencionaré brevemente los requisitos/recomendaciones de hardware y las herramientas modernas disponibles para lograr sus objetivos con LLMs en su máquina. En un artículo posterior, planeo proporcionar instrucciones paso a paso y código para ajustar finamente su propio LLM, así que esté atento a eso.

TL;DR: al cuantizar nuestro LLM y cambiar el tipo de tensor, podemos ejecutar inferencias en un LLM con el doble de parámetros y, al mismo tiempo, reducir el tiempo de ejecución un 80%.

Como siempre, si desea discutir cualquier tema que cubra aquí, no dude en contactarme.

Todas las opiniones en este artículo son mías. Este artículo no está patrocinado.

¿Qué es la cuantización (de LLMs)?

La cuantización nos permite reducir el tamaño de nuestras redes neuronales convirtiendo los pesos y sesgos de la red desde su formato original de punto flotante (por ejemplo, 32 bits) a un formato de menor precisión (por ejemplo, 8 bits). El formato original de punto flotante puede variar según varios factores, como la arquitectura y los procesos de entrenamiento del modelo. El propósito final de la cuantización es reducir el tamaño de nuestro modelo, lo que a su vez reduce los requisitos de memoria y computacionales para ejecutar inferencias y entrenar nuestro modelo. La cuantización puede volverse complicada rápidamente si intenta cuantizar los modelos usted mismo. Esto se debe en gran parte a la falta de soporte de hardware por parte de proveedores específicos. Afortunadamente, esto se puede evitar mediante el uso de servicios y software de terceros específicos.

Personalmente, he tenido que sortear varios obstáculos para cuantizar LLMs como Llama-2 de Meta en mi Mac. Esto se debe en gran parte a la falta de soporte para bibliotecas estándar (o cualquier cosa con núcleos CUDA personalizados). Herramientas de terceros como…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Quantización y cía. Reduciendo los tiempos de inferencia en LLMs en un 80%

¿Qué es la cuantización (de LLMs)?

Was this article helpful?

Ciencia de la decisión se encuentra con el diseño

Uni3D Explorando la representación 3D unificada a gran escala

Inteligencia Artificial

Un superordenador de inteligencia artificial cobra vida, impulsado por gigantes chips de computadora

El Gobierno de Canadá llega a un acuerdo con Google sobre la Ley de Noticias en línea.

Implementa modelos de ML construidos en Amazon SageMaker Canvas en los puntos finales de tiempo real de Amazon SageMaker.

Cuidado con los datos poco confiables en la evaluación de modelos un estudio de caso de selección de LLM Prompt con Flan-T5.

Conoce GPTCache una biblioteca para desarrollar una caché semántica de consultas LLM.

Microsoft AI presenta Orca un modelo de 13 mil millones de parámetros que aprende a imitar el proceso de razonamiento de los LFM (modelos de fundación grandes).