Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos
Conoce vLLM, una biblioteca de aprendizaje automático de código abierto para LLM rápido
Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nuestras vidas diarias y carreras, ya que hacen posible nuevas aplicaciones como asistentes de programación y chatbots universales. Sin embargo, el funcionamiento de estas aplicaciones conlleva un costo sustancial debido a los requisitos significativos de aceleradores de hardware, como las GPUs. Estudios recientes muestran que manejar una solicitud de LLM puede ser costoso, hasta diez veces más que una búsqueda de palabras clave tradicional. Por lo tanto, hay una creciente necesidad de aumentar el rendimiento de los sistemas de servicio de LLM para minimizar los gastos por solicitud.
Realizar un servicio de alto rendimiento de grandes modelos de lenguaje (LLMs) requiere agrupar suficientes solicitudes a la vez y los sistemas existentes.
Sin embargo, los sistemas existentes necesitan ayuda porque la memoria caché de clave-valor (KV cache) para cada solicitud es enorme y puede crecer y disminuir de manera dinámica. Debe ser gestionada cuidadosamente, ya que cuando se gestiona de manera ineficiente, la fragmentación y la duplicación redundante pueden ahorrar considerablemente esta RAM, reduciendo el tamaño del lote.
- Investigadores de Stanford presentan Spellburst un entorno de codificación creativa impulsado por un modelo de lenguaje grande (LLM).
- IA para desarrolladores web Introducción y configuración del proyecto
- Regex para los Científicos de Datos Modernos
Los investigadores han sugerido PagedAttention, un algoritmo de atención inspirado en las técnicas tradicionales de memoria virtual y paginación en sistemas operativos, como solución a este problema. Para reducir aún más la utilización de memoria, los investigadores también han implementado vLLM. Este sistema de servicio de LLM proporciona prácticamente cero desperdicio en la memoria caché KV y un uso flexible de la memoria caché KV dentro y entre solicitudes.
vLLM utiliza PagedAttention para gestionar las claves y valores de atención. Al ofrecer hasta 24 veces más rendimiento que HuggingFace Transformers sin requerir cambios en la arquitectura del modelo, vLLM equipado con PagedAttention redefine el estado actual del arte en el servicio de LLM.
A diferencia de los algoritmos de atención convencionales, permiten el almacenamiento continuo de claves y valores en un espacio de memoria no contiguo. PagedAttention divide la memoria caché KV de cada secuencia en bloques, cada uno con las claves y valores correspondientes a una cantidad predeterminada de tokens. Estos bloques son identificados eficientemente por el kernel de PagedAttention durante el cálculo de la atención. Como los bloques no necesariamente tienen que ser contiguos, las claves y valores pueden ser gestionados de manera flexible.
La fuga de memoria solo ocurre en el último bloque de una secuencia dentro de PagedAttention. En el uso práctico, esto conduce a una utilización efectiva de la memoria, con solo un 4% de ineficiencia mínima. Esta mejora en la eficiencia de la memoria permite una mayor utilización de la GPU.
Además, PagedAttention tiene otra ventaja clave de compartir memoria de manera eficiente. La función de uso compartido de memoria de PageAttention reduce considerablemente la memoria adicional requerida para técnicas de muestreo como el muestreo paralelo y la búsqueda en viga. Esto puede resultar en una ganancia de velocidad de hasta 2.2 veces mientras se reduce la utilización de memoria en un 55%. Esta mejora hace que estas técnicas de muestreo sean útiles y eficaces para los servicios de grandes modelos de lenguaje (LLM).
Los investigadores estudiaron la precisión de este sistema. Descubrieron que, con la misma cantidad de retraso que los sistemas de vanguardia como FasterTransformer y Orca, vLLM aumenta el rendimiento de LLMs conocidos en un 2-4. Modelos más grandes, algoritmos de decodificación más complejos y secuencias más largas resultan en una mejora más notable.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- El Dilema de AutoML
- La nueva solución de código abierto de Vianai aborda el problema de la alucinación en la IA
- Técnicas de caza de amenazas de próxima generación con integración SIEM-SOAR
- Más allá de GPT-4 ¿Qué hay de nuevo?
- Conoce a BLIVA un modelo de lenguaje multimodal grande para manejar mejor preguntas visuales ricas en texto
- Grita al Diablo ‘Devil May Cry 5’ de Capcom se une a GeForce NOW
- Cómo se puede utilizar el Aprendizaje Automático para reducir las facturas de energía