Run Local LLM Inference10x Más Rápido (244 TOK/s) PyTorch II

Corre la inferencia local de LLM 10x Más Rápido (244 TOK/s) PyTorch II

Hay muchas formas de correr, aquí tienes un resumen rápido

TLDR:

El equipo de Pytorch encontró una forma de optimizar puramente construyendo optimizaciones desde cero

Pytorch logró todo esto en solo 1000 líneas de código.

Aquí tienes la comparación de rendimiento

Ahora, ¡vamos a verlos uno por uno!

Vanilla (25 tokens/s)

Este es el rendimiento de LLaMA-7b.

Primer aumento de 3x usando el nuevo compilador y asignación inteligente (76 TOK/S)

Usando LLaMA-7B, Pytorch analizó los problemas de rendimiento que están limitados por la CPU. Eso significa que la sobrecarga es el primer objetivo para hacerlo más eficiente.

Entra el compilador. Compilando regiones más grandes en un estado precompilado, disminuye la cantidad de llamadas de CPU por operación. Esto significa que este wrapper ahora puede funcionar sin espacios, como puedes ver a continuación.

Para usarlo, simplemente usa el siguiente código

torch.compile(decode_one_token, mode="reduce-overhead", fullgraph=True)

¿Qué está sucediendo bajo el capó?

En primer lugar, cuando se generan más tokens, la caché kv-cache crece, necesitando realocación y copiado (cálculos costosos) cada vez que la caché crece. Pytorch implementó un caché grande para permitir un tamaño máximo.

En segundo lugar, se necesitan dos estrategias para compilar por separado durante la fase de precarga. Se procesa dinámicamente todo el prompt y se descodifican los tokens como se muestra en el código anterior. Manteniendo estas estrategias en paralelo se permiten más optimizaciones. Solo con estas dos estrategias, hay un 4x de rendimiento a obtener para la inferencia.

Aumenta otro 34% mediante…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a Nous-Hermes-Llama2-70b Un modelo de lenguaje de última generación ajustado finamente en más de 300,000 instrucciones.

El Transformer de Hugging Face es una biblioteca inmensamente popular en Python, que proporciona modelos pre-entrenad...

Inteligencia Artificial

Conoce a cinco innovadores en IA generativa en África y Oriente Medio

Los emprendedores están cultivando IA generativa desde la costa oeste de África hasta el borde oriental del desierto ...

Inteligencia Artificial

Robot Sudoroso Puede Ayudar a los Humanos a Comprender el Impacto del Calor Abrasador

Un investigador de la Universidad Estatal de Arizona describió al robot Advanced Newton Dynamic Instrument como 'el p...

Inteligencia Artificial

Investigadores de la Universidad de California en San Diego presentan EUGENe un software de genómica fácil de usar y basado en el aprendizaje profundo

El aprendizaje profundo se utiliza en todas las esferas de la vida. Tiene utilidad en cada campo. Tiene un gran impac...

Inteligencia Artificial

Reka AI presenta a Yasa-1 un asistente de lenguaje multimodal con sensores visuales y auditivos que puede tomar acciones mediante la ejecución de código.

La demanda de asistentes de lenguaje más avanzados y versátiles ha aumentado constantemente en el panorama en constan...