Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana

Microsoft presenta Hydra-RLHF, una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana.

Desde que se hicieron conocidos, los modelos familiares ChatGPT, GPT-4 y Llama-2 han conquistado a los usuarios con su versatilidad como asistentes útiles para varios trabajos. La alineación del modelo utilizando RLHF y muchos otros modelos fundamentales es un factor en su efectividad. El entrenamiento de un modelo de lenguaje enorme crea una red con mucho conocimiento. Sin embargo, debido a que la red no está enseñada a distinguir entre esa información, puede mostrar comportamientos indeseables e incluso causar daño social. Al cambiar el comportamiento del modelo, la alineación busca abordar este problema y se ha vuelto crucial en el desarrollo de modelos fundamentales seguros y manejables.

Aunque RLHF mejora la alineación del modelo, tiene un uso restringido debido a su alta complejidad y los grandes requisitos de memoria al cargar y entrenar numerosos modelos durante PPO. Existe una necesidad crítica de evaluar las variaciones en velocidad y rendimiento de RLHF porque su aplicación aún está en pañales. Examinan el procedimiento de entrenamiento y las arquitecturas de modelos comunes de RLHFPPO para cumplir con este objetivo. Su investigación descubrió perspectivas significativas de reducción de costos de memoria/computación a través del uso compartido de modelos entre Reference/Reward Models y Actor/Critic Models.

Investigadores de Microsoft sugieren Hydra-PPO para minimizar la cantidad de modelos aprendidos y estáticos almacenados en memoria durante PPO a la luz de estos hallazgos. Estos ahorros de memoria pueden utilizarse posteriormente para mejorar el tamaño del lote de entrenamiento, reduciendo la latencia por muestra de PPO hasta en un 65%, según comparaciones de tiempo de ejecución y rendimiento. Presentan un conjunto de mejoras de RLHF llamadas Hydra-RLHF. Crean un modelo basado en decodificador llamado hydra con dos cabezas lineales:

1) Una cabeza causal que predice el token que vendrá después en una secuencia

2) Una cabeza de modelo de recompensa que proporciona la recompensa instantánea vinculada a la misma entrada.

Los modelos de varias cabezas se han estudiado ampliamente, en general, y en relación con el aprendizaje por refuerzo.

Realizaron una investigación comparativa que evalúa la efectividad de varios procedimientos de alineación de modelos medidos por GPT-4. Descubrieron que LoRA-PPO tiene una mejor alineación que FFT, pero es más costoso. Introducen Hydra-RLHF, que combina modelos de referencia y recompensa y cambia dinámicamente el módulo LoRA actual durante PPO, como una forma de reducir el uso de memoria manteniendo la velocidad. Hydra-RLHF puede entrenar con una latencia por muestra hasta un 65% más rápida utilizando una mayor tamaño de lote. Gracias a Hydra-RLHF, la comunidad ahora puede utilizar RLHF para una gama más amplia de modelos y aplicaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana

Was this article helpful?

Investigadores del MIT proponen AskIt un lenguaje específico de dominio para agilizar la integración de modelos de lenguaje grandes en el desarrollo de software.

Una introducción a los conceptos fundamentales que necesitas para comenzar a realizar pruebas estadísticas

Inteligencia Artificial

Cómo la inteligencia artificial protege (y ataca) tu bandeja de entrada.

Búsqueda de Google en India ahora está impulsada por IA | Aprende cómo usarlo

Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos

Explicar decisiones médicas en entornos clínicos utilizando Amazon SageMaker Clarify

¿Invertir en IA? Aquí tienes qué considerar

Robots de entrega de comida de Uber Eats listos para ser utilizados en múltiples ciudades de EE. UU.