Un equipo de investigadores de UC Berkeley y Stanford presenta S-LoRA un sistema de inteligencia artificial diseñado para el servicio escalable de muchos adaptadores LoRA

Equipo de expertos de UC Berkeley y Stanford presenta S-LoRA el sistema de inteligencia artificial diseñado para un servicio escalable con múltiples adaptadores LoRA

Un equipo de investigadores de UC Berkeley y Stanford ha desarrollado un nuevo método de ajuste fino de parámetros llamado Adaptación de Rango Bajo (LoRA) para desplegar LLMs. S-LoRA fue diseñado para permitir el despliegue eficiente de muchos adaptadores LoRA. S-LoRA permite que miles de adaptadores se ejecuten en una sola GPU o en múltiples GPUs con un mínimo de sobrecarga. El método introduce paginación unificada para optimizar el uso de memoria de la GPU, utilizando paralelismo tensorial novedoso y núcleos CUDA personalizados para el procesamiento heterogéneo por lotes. Estas técnicas reducen significativamente los requisitos computacionales para desplegar LLMs en aplicaciones del mundo real.

LoRA es una técnica de ajuste fino altamente eficiente para personalizar LLMs pre-entrenados para nuevas tareas, reduciendo drásticamente los parámetros entrenables mientras se mantiene una alta precisión. LoRA es ampliamente utilizado, lo que ha resultado en la creación de innumerables adaptadores LoRA para LLMs y modelos de difusión. En las aplicaciones actuales, los LLMs son omnipresentes, atendiendo a varios dominios y tareas.

Las aplicaciones modernas utilizan extensivamente LLMs, y el método de preentrenamiento y ajuste fino ha dado lugar a la creación de múltiples versiones ajustadas finamente de un único LLM base, cada una personalizada para tareas o dominios específicos. LoRA es una técnica de ajuste fino eficiente en términos de parámetros que adapta LLMs pre-entrenados para nuevas tareas, reduciendo significativamente el número de parámetros entrenables mientras se mantiene una alta precisión.

S-LoRA aprovecha LoRA para ajustar finamente de manera eficiente un modelo base para una amplia gama de tareas, generando una colección sustancial de adaptadores LoRA a partir de un solo modelo. Introduce Paginación Unificada, que optimiza el uso de memoria de la GPU mediante la gestión de pesos de adaptadores dinámicos y tensores de caché KV dentro de una memoria unificada. S-LoRA permite la ejecución de miles de adaptadores LoRA con un mínimo de sobrecarga. El enfoque puede mejorar el rendimiento hasta cuatro veces y escalar significativamente el número de adaptadores admitidos en comparación con bibliotecas líderes como HuggingFace PEFT y vLLM.

S-LoRA maneja eficientemente 2,000 adaptadores simultáneamente con un mínimo de sobrecarga, manteniendo bajos costos computacionales. Supera a vLLM-packed hasta 4 veces para algunos adaptadores y hasta 30 veces a PEFT, al tiempo que admite un número significativamente mayor de adaptadores. S-LoRA supera a sus variantes, S-LoRA-bmm y S-LoRA-no-unifymem, en cuanto a rendimiento y latencia, destacando la efectividad de la agrupación de memoria y los núcleos personalizados. La escalabilidad del sistema está limitada principalmente por la memoria principal disponible, lo que demuestra un rendimiento sólido en cargas de trabajo del mundo real. Las impresionantes capacidades de S-LoRA lo convierten en una solución potente para adaptar modelos de lenguaje grandes a varias tareas.

La investigación tiene como objetivo mejorar el rendimiento investigando vías de optimización como la cuantificación, la esparsificación y la mejora de las arquitecturas de los modelos. Explora la implementación de técnicas de cálculo descompuesto tanto para el modelo base como para los adaptadores, junto con el desarrollo de núcleos CUDA personalizados para un soporte mejorado. El enfoque también se extiende a abordar características auto regresivas y adaptadores eficientes en términos de parámetros dentro del servicio de LLM, buscando identificar y cubrir lagunas de optimización en los sistemas actuales de distribución de modelos.

En conclusión, S-LoRA ha introducido paginación unificada para combatir la fragmentación de memoria, lo que lleva a un aumento en los tamaños de lote y una mejor escalabilidad en el servicio. El estudio presenta una solución escalable de servicio LoRA, abordando el desafío previamente inexplorado de servir variantes ajustadas finamente a gran escala. El trabajo optimiza el servicio LoRA a través de técnicas algorítmicas como cuantificación, esparsificación y mejoras en la arquitectura del modelo, complementando mejoras a nivel de sistema.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Construyendo sistemas complejos utilizando ChatGPT

Introducción La inteligencia artificial ha evolucionado más allá de las expectativas con LLMs como ChatGPT. GPT-4, un...

Ciencia de Datos

Celebrando el impacto de IDSS

Una conferencia de dos días en MIT reflexionó sobre el impacto del Instituto de Datos, Sistemas y Sociedad desde su l...

Inteligencia Artificial

Cómo las industrias están cumpliendo las expectativas de los consumidores con la IA de voz

Gracias a los rápidos avances tecnológicos, los consumidores se han acostumbrado a un nivel sin precedentes de comodi...

Inteligencia Artificial

Mistral AI presenta Mixtral 8x7B un potente modelo disperso de mezcla de expertos

En un movimiento hacia el avance de la inteligencia artificial, Mistral AI, pionero en la entrega de modelos abiertos...

Inteligencia Artificial

Proyecto Green Light de Google sincroniza los semáforos para reducir en un 30% las paradas

El Proyecto Green Light de Google se ha asociado con 12 ciudades en todo el mundo para proporcionar recomendaciones d...

Inteligencia Artificial

¿Desvelando el poder de Meta's Llama 2 ¿Un salto adelante en la IA generativa?

Este artículo explora los detalles técnicos e implicaciones del recientemente lanzado Llama 2 de Meta, un modelo de l...