Run Local LLM Inference10x Más Rápido (244 TOK/s) PyTorch II

Corre la inferencia local de LLM 10x Más Rápido (244 TOK/s) PyTorch II

Hay muchas formas de correr, aquí tienes un resumen rápido

TLDR:

El equipo de Pytorch encontró una forma de optimizar puramente construyendo optimizaciones desde cero

Torch.compile: Un compilador para modelos de PyTorch
Cuantización de GPU: Acelera modelos con operaciones de precisión reducida
Decodificación especulativa: Acelera LLMs utilizando un “borrador” pequeño para predecir la salida de un modelo “objetivo” grande
Paralelismo de tensores: Acelera modelos ejecutándolos en múltiples dispositivos.

Pytorch logró todo esto en solo 1000 líneas de código.

Aquí tienes la comparación de rendimiento

Ahora, ¡vamos a verlos uno por uno!

Vanilla (25 tokens/s)

Este es el rendimiento de LLaMA-7b.

Primer aumento de 3x usando el nuevo compilador y asignación inteligente (76 TOK/S)

Usando LLaMA-7B, Pytorch analizó los problemas de rendimiento que están limitados por la CPU. Eso significa que la sobrecarga es el primer objetivo para hacerlo más eficiente.

Entra el compilador. Compilando regiones más grandes en un estado precompilado, disminuye la cantidad de llamadas de CPU por operación. Esto significa que este wrapper ahora puede funcionar sin espacios, como puedes ver a continuación.

Para usarlo, simplemente usa el siguiente código

torch.compile(decode_one_token, mode="reduce-overhead", fullgraph=True)

¿Qué está sucediendo bajo el capó?

En primer lugar, cuando se generan más tokens, la caché kv-cache crece, necesitando realocación y copiado (cálculos costosos) cada vez que la caché crece. Pytorch implementó un caché grande para permitir un tamaño máximo.

En segundo lugar, se necesitan dos estrategias para compilar por separado durante la fase de precarga. Se procesa dinámicamente todo el prompt y se descodifican los tokens como se muestra en el código anterior. Manteniendo estas estrategias en paralelo se permiten más optimizaciones. Solo con estas dos estrategias, hay un 4x de rendimiento a obtener para la inferencia.

Aumenta otro 34% mediante…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Run Local LLM Inference10x Más Rápido (244 TOK/s) PyTorch II

Hay muchas formas de correr, aquí tienes un resumen rápido

Vanilla (25 tokens/s)

Primer aumento de 3x usando el nuevo compilador y asignación inteligente (76 TOK/S)

Aumenta otro 34% mediante…

Was this article helpful?

Descubriendo LangChain Chatea con tus documentos, traductor de chatbot, chatea con Wikipedia, generador de datos sintéticos

Buenos ingenieros, malos ingenieros y ingenieros malvados una anécdota para líderes de datos

Inteligencia Artificial

Conoce a Nous-Hermes-Llama2-70b Un modelo de lenguaje de última generación ajustado finamente en más de 300,000 instrucciones.

Conoce a cinco innovadores en IA generativa en África y Oriente Medio

Robot Sudoroso Puede Ayudar a los Humanos a Comprender el Impacto del Calor Abrasador

Investigadores de la Universidad de California en San Diego presentan EUGENe un software de genómica fácil de usar y basado en el aprendizaje profundo

Reka AI presenta a Yasa-1 un asistente de lenguaje multimodal con sensores visuales y auditivos que puede tomar acciones mediante la ejecución de código.

Investigadores de ETH Zurich presentan GoT (Graph of Thoughts) un marco de aprendizaje automático que mejora las capacidades de sugestión en modelos de lenguaje grandes (LLMs).