Un equipo de investigadores de UC Berkeley y Stanford presenta S-LoRA un sistema de inteligencia artificial diseñado para el servicio escalable de muchos adaptadores LoRA
Equipo de expertos de UC Berkeley y Stanford presenta S-LoRA el sistema de inteligencia artificial diseñado para un servicio escalable con múltiples adaptadores LoRA
Un equipo de investigadores de UC Berkeley y Stanford ha desarrollado un nuevo método de ajuste fino de parámetros llamado Adaptación de Rango Bajo (LoRA) para desplegar LLMs. S-LoRA fue diseñado para permitir el despliegue eficiente de muchos adaptadores LoRA. S-LoRA permite que miles de adaptadores se ejecuten en una sola GPU o en múltiples GPUs con un mínimo de sobrecarga. El método introduce paginación unificada para optimizar el uso de memoria de la GPU, utilizando paralelismo tensorial novedoso y núcleos CUDA personalizados para el procesamiento heterogéneo por lotes. Estas técnicas reducen significativamente los requisitos computacionales para desplegar LLMs en aplicaciones del mundo real.
LoRA es una técnica de ajuste fino altamente eficiente para personalizar LLMs pre-entrenados para nuevas tareas, reduciendo drásticamente los parámetros entrenables mientras se mantiene una alta precisión. LoRA es ampliamente utilizado, lo que ha resultado en la creación de innumerables adaptadores LoRA para LLMs y modelos de difusión. En las aplicaciones actuales, los LLMs son omnipresentes, atendiendo a varios dominios y tareas.
Las aplicaciones modernas utilizan extensivamente LLMs, y el método de preentrenamiento y ajuste fino ha dado lugar a la creación de múltiples versiones ajustadas finamente de un único LLM base, cada una personalizada para tareas o dominios específicos. LoRA es una técnica de ajuste fino eficiente en términos de parámetros que adapta LLMs pre-entrenados para nuevas tareas, reduciendo significativamente el número de parámetros entrenables mientras se mantiene una alta precisión.
- Investigadores de Meta presentaron VR-NeRF un sistema avanzado de inteligencia artificial de extremo a extremo para la captura y renderización de espacios transitables de alta fidelidad en realidad virtual.
- Este artículo de IA presenta RuLES un nuevo marco de aprendizaje automático para evaluar la adherencia a reglas en modelos de lenguaje grandes frente a ataques adversarios
- Esta investigación de IA de China presenta Consistent4D Un nuevo enfoque de inteligencia artificial para generar objetos dinámicos en 4D a partir de videos monocu
S-LoRA aprovecha LoRA para ajustar finamente de manera eficiente un modelo base para una amplia gama de tareas, generando una colección sustancial de adaptadores LoRA a partir de un solo modelo. Introduce Paginación Unificada, que optimiza el uso de memoria de la GPU mediante la gestión de pesos de adaptadores dinámicos y tensores de caché KV dentro de una memoria unificada. S-LoRA permite la ejecución de miles de adaptadores LoRA con un mínimo de sobrecarga. El enfoque puede mejorar el rendimiento hasta cuatro veces y escalar significativamente el número de adaptadores admitidos en comparación con bibliotecas líderes como HuggingFace PEFT y vLLM.
S-LoRA maneja eficientemente 2,000 adaptadores simultáneamente con un mínimo de sobrecarga, manteniendo bajos costos computacionales. Supera a vLLM-packed hasta 4 veces para algunos adaptadores y hasta 30 veces a PEFT, al tiempo que admite un número significativamente mayor de adaptadores. S-LoRA supera a sus variantes, S-LoRA-bmm y S-LoRA-no-unifymem, en cuanto a rendimiento y latencia, destacando la efectividad de la agrupación de memoria y los núcleos personalizados. La escalabilidad del sistema está limitada principalmente por la memoria principal disponible, lo que demuestra un rendimiento sólido en cargas de trabajo del mundo real. Las impresionantes capacidades de S-LoRA lo convierten en una solución potente para adaptar modelos de lenguaje grandes a varias tareas.
La investigación tiene como objetivo mejorar el rendimiento investigando vías de optimización como la cuantificación, la esparsificación y la mejora de las arquitecturas de los modelos. Explora la implementación de técnicas de cálculo descompuesto tanto para el modelo base como para los adaptadores, junto con el desarrollo de núcleos CUDA personalizados para un soporte mejorado. El enfoque también se extiende a abordar características auto regresivas y adaptadores eficientes en términos de parámetros dentro del servicio de LLM, buscando identificar y cubrir lagunas de optimización en los sistemas actuales de distribución de modelos.
En conclusión, S-LoRA ha introducido paginación unificada para combatir la fragmentación de memoria, lo que lleva a un aumento en los tamaños de lote y una mejor escalabilidad en el servicio. El estudio presenta una solución escalable de servicio LoRA, abordando el desafío previamente inexplorado de servir variantes ajustadas finamente a gran escala. El trabajo optimiza el servicio LoRA a través de técnicas algorítmicas como cuantificación, esparsificación y mejoras en la arquitectura del modelo, complementando mejoras a nivel de sistema.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de la Universidad Johannes Kepler presentan GateLoop Avanzando en el modelado de secuencias con recurrencia lineal y transiciones de estado controladas por datos’.
- El poder de la IA en predecir el comportamiento de pago del consumidor
- ¿Estás utilizando la Generación Aumentada con Recuperación (RAG) para Biomedicina? Conoce a MedCPT Un Modelo Transformador Pre-entrenado Contrastivo para la Recuperación de Información Biomédica sin Necesidad de Datos de Entrenamiento
- Este artículo de IA presenta un análisis exhaustivo de las espinas dorsales de visión por computadora desvelando las fortalezas y debilidades de los modelos preentrenados
- Investigadores de China proponen iTransformer Repensando la arquitectura Transformer para una mejora en la previsión de series temporales
- Álgebra Lineal 4 Ecuaciones Matriciales
- Generando más perspectivas de calidad por mes