Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Conoce vLLM, una biblioteca de aprendizaje automático de código abierto para LLM rápido

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nuestras vidas diarias y carreras, ya que hacen posible nuevas aplicaciones como asistentes de programación y chatbots universales. Sin embargo, el funcionamiento de estas aplicaciones conlleva un costo sustancial debido a los requisitos significativos de aceleradores de hardware, como las GPUs. Estudios recientes muestran que manejar una solicitud de LLM puede ser costoso, hasta diez veces más que una búsqueda de palabras clave tradicional. Por lo tanto, hay una creciente necesidad de aumentar el rendimiento de los sistemas de servicio de LLM para minimizar los gastos por solicitud.

Realizar un servicio de alto rendimiento de grandes modelos de lenguaje (LLMs) requiere agrupar suficientes solicitudes a la vez y los sistemas existentes.

Sin embargo, los sistemas existentes necesitan ayuda porque la memoria caché de clave-valor (KV cache) para cada solicitud es enorme y puede crecer y disminuir de manera dinámica. Debe ser gestionada cuidadosamente, ya que cuando se gestiona de manera ineficiente, la fragmentación y la duplicación redundante pueden ahorrar considerablemente esta RAM, reduciendo el tamaño del lote.

Los investigadores han sugerido PagedAttention, un algoritmo de atención inspirado en las técnicas tradicionales de memoria virtual y paginación en sistemas operativos, como solución a este problema. Para reducir aún más la utilización de memoria, los investigadores también han implementado vLLM. Este sistema de servicio de LLM proporciona prácticamente cero desperdicio en la memoria caché KV y un uso flexible de la memoria caché KV dentro y entre solicitudes.

vLLM utiliza PagedAttention para gestionar las claves y valores de atención. Al ofrecer hasta 24 veces más rendimiento que HuggingFace Transformers sin requerir cambios en la arquitectura del modelo, vLLM equipado con PagedAttention redefine el estado actual del arte en el servicio de LLM.

A diferencia de los algoritmos de atención convencionales, permiten el almacenamiento continuo de claves y valores en un espacio de memoria no contiguo. PagedAttention divide la memoria caché KV de cada secuencia en bloques, cada uno con las claves y valores correspondientes a una cantidad predeterminada de tokens. Estos bloques son identificados eficientemente por el kernel de PagedAttention durante el cálculo de la atención. Como los bloques no necesariamente tienen que ser contiguos, las claves y valores pueden ser gestionados de manera flexible.

La fuga de memoria solo ocurre en el último bloque de una secuencia dentro de PagedAttention. En el uso práctico, esto conduce a una utilización efectiva de la memoria, con solo un 4% de ineficiencia mínima. Esta mejora en la eficiencia de la memoria permite una mayor utilización de la GPU.

Además, PagedAttention tiene otra ventaja clave de compartir memoria de manera eficiente. La función de uso compartido de memoria de PageAttention reduce considerablemente la memoria adicional requerida para técnicas de muestreo como el muestreo paralelo y la búsqueda en viga. Esto puede resultar en una ganancia de velocidad de hasta 2.2 veces mientras se reduce la utilización de memoria en un 55%. Esta mejora hace que estas técnicas de muestreo sean útiles y eficaces para los servicios de grandes modelos de lenguaje (LLM).

Los investigadores estudiaron la precisión de este sistema. Descubrieron que, con la misma cantidad de retraso que los sistemas de vanguardia como FasterTransformer y Orca, vLLM aumenta el rendimiento de LLMs conocidos en un 2-4. Modelos más grandes, algoritmos de decodificación más complejos y secuencias más largas resultan en una mejora más notable.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigación en Stanford presenta PointOdyssey un conjunto de datos sintético a gran escala para el seguimiento de puntos a largo plazo

Los conjuntos de datos anotados a gran escala han servido como una autopista para crear modelos precisos en varias ta...

Ciencias de la Computación

Chattanooga siembra semillas cuánticas.

Chattanooga, TN, abrirá la primera red cuántica disponible comercialmente en los Estados Unidos a finales del próximo...

Inteligencia Artificial

¿Reemplazará la IA a la humanidad?

Descubramos si la inteligencia artificial es realmente inteligente y tiene el potencial de superar a los humanos.

Inteligencia Artificial

¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

La búsqueda de hacer que los robots realicen tareas físicas complejas, como navegar por entornos desafiantes, ha sido...

Inteligencia Artificial

Miles de autores instan a las compañías de IA a dejar de usar trabajos sin permiso

Casi 8,000 autores acaban de firmar una carta dirigida a los líderes de seis empresas de inteligencia artificial, inc...