Investigadores de NVIDIA AI proponen Tied-Lora un nuevo enfoque de inteligencia artificial que tiene como objetivo mejorar la eficiencia de los parámetros de los métodos de adaptación de baja clasificación (LoRA)

Investigadores de NVIDIA AI presentan Tied-Lora un nuevo enfoque de inteligencia artificial para optimizar la eficiencia de los parámetros en métodos de adaptación de baja clasificación (LoRA)

Un grupo de investigadores de Nvidia ha desarrollado una nueva técnica llamada Tied-LoRA, que tiene como objetivo mejorar la eficiencia de los parámetros del método de Adaptación de Baja Clasificación (LoRA). El curso utiliza la técnica de unión de pesos y entrenamiento selectivo para encontrar el equilibrio óptimo entre rendimiento y parámetros entrenables. Los investigadores llevaron a cabo experimentos en diferentes tareas y modelos de lenguaje base y encontraron que existen compensaciones entre eficiencia y rendimiento.

Los avances recientes en técnicas de ajuste fino de eficiencia de parámetros incluyen LoRA, que reduce los parámetros entrenables a través de aproximaciones de matrices de baja clasificación. AdaLoRA es una extensión de LoRA que introduce un ajuste dinámico de la clasificación y combina afinación de adaptadores con LoRA. Otra técnica es VeRA, propuesta por Kopiczko, que reduce los parámetros a través de matrices congeladas y vectores escalares entrenables. QLoRA utiliza modelos base cuantizados para lograr una LoRA eficiente en memoria. Este estudio aplica la técnica de unión de pesos a las matrices de pesos de baja clasificación, mejorando aún más la eficiencia de los parámetros.

Para abordar el gasto computacional del ajuste fino de los modelos de lenguaje masivo (LLMs) para tareas posteriores, Tied-LoRA es un enfoque novedoso que combina la técnica de unión de pesos y el entrenamiento selectivo para mejorar la eficiencia de los parámetros de LoRA. Explora diferentes combinaciones de entrenamiento/congelamiento de parámetros y unión de pesos a través de experimentos sistemáticos en diversos estudios y modelos de lenguaje base. Los investigadores identificaron una configuración específica de Tied-LoRA que logra un rendimiento comparable utilizando solo el 13% de los parámetros en comparación con el método estándar LoRA.

Tied-LoRA es un método que mejora la eficiencia de los parámetros del enfoque LoRA al combinar la técnica de unión de pesos y el entrenamiento selectivo. Implica aplicar la unión de pesos a las matrices de baja clasificación en LoRA, compartiendo las mismas consecuencias en todas las capas del modelo de lenguaje base, lo que reduce el número de parámetros entrenables. Explora diversas combinaciones de entrenamiento/congelamiento de parámetros y unión de pesos para lograr un equilibrio óptimo entre rendimiento y parámetros entrenables. Las configuraciones propuestas de Tied-LoRA se evalúan en diversas tareas, demostrando eficiencia en diferentes configuraciones de datos, incluyendo traducción y razonamiento matemático.

En experimentos realizados en diversas tareas y dos modelos de lenguaje base, diferentes configuraciones de Tied-LoRA demostraron compensaciones entre eficiencia y rendimiento. Una configuración específica de Tied-LoRA, vBuA, superó a las demás, logrando un rendimiento comparable. vBuA fue identificada como la opción óptima, manteniendo el rendimiento mientras reduce los parámetros en un 87%. Las evaluaciones en tareas como respuesta a preguntas extractivas, resumen y razonamiento matemático mostraron la capacidad de Tied-LoRA para mejorar la eficiencia de los parámetros mientras se preserva un rendimiento significativamente competitivo.

Después de realizar experimentos en diversas tareas, se ha encontrado que Tied-LoRA es un paradigma que mejora la eficiencia de los parámetros del método LoRA al utilizar la técnica de unión de pesos y el entrenamiento selectivo. Los resultados sugieren que Tied-LoRA puede reemplazar funciones como NLI de sentido común, respuesta a preguntas extractivas y resumen. Además, ofrece una mejor eficiencia de los parámetros sin comprometer el rendimiento, utilizando solo el 13% de los parámetros del método LoRA estándar. Sin embargo, es importante discutir las limitaciones y comparaciones con otros métodos de eficiencia de parámetros para identificar áreas potenciales de exploración futura.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Los emojis son cada vez más legalmente vinculantes. Pero todavía están abiertos a una amplia interpretación

Cada año, más casos en los tribunales de Estados Unidos consideran los emojis como legalmente vinculantes. Sin embarg...

Inteligencia Artificial

Manteniendo secretos en un mundo cuántico

Los criptógrafos están trabajando en esquemas de cifrado de datos lo suficientemente fuertes como para resistir ataqu...

Inteligencia Artificial

Google AI presenta WeatherBench 2 un marco de aprendizaje automático para evaluar y comparar diversos modelos de pronóstico del tiempo

El aprendizaje automático (ML) se ha utilizado cada vez más en la predicción del tiempo en los últimos años. Ahora qu...

Inteligencia Artificial

La función de detección de suplantación de identidad protege a las marcas y personalidades de las cuentas falsas en las redes sociales

Una empresa canadiense ha incorporado una función de protección contra la suplantación de identidad en su plataforma ...