Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana

Microsoft presenta Hydra-RLHF, una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana.

Desde que se hicieron conocidos, los modelos familiares ChatGPT, GPT-4 y Llama-2 han conquistado a los usuarios con su versatilidad como asistentes útiles para varios trabajos. La alineación del modelo utilizando RLHF y muchos otros modelos fundamentales es un factor en su efectividad. El entrenamiento de un modelo de lenguaje enorme crea una red con mucho conocimiento. Sin embargo, debido a que la red no está enseñada a distinguir entre esa información, puede mostrar comportamientos indeseables e incluso causar daño social. Al cambiar el comportamiento del modelo, la alineación busca abordar este problema y se ha vuelto crucial en el desarrollo de modelos fundamentales seguros y manejables.

Aunque RLHF mejora la alineación del modelo, tiene un uso restringido debido a su alta complejidad y los grandes requisitos de memoria al cargar y entrenar numerosos modelos durante PPO. Existe una necesidad crítica de evaluar las variaciones en velocidad y rendimiento de RLHF porque su aplicación aún está en pañales. Examinan el procedimiento de entrenamiento y las arquitecturas de modelos comunes de RLHFPPO para cumplir con este objetivo. Su investigación descubrió perspectivas significativas de reducción de costos de memoria/computación a través del uso compartido de modelos entre Reference/Reward Models y Actor/Critic Models.

Investigadores de Microsoft sugieren Hydra-PPO para minimizar la cantidad de modelos aprendidos y estáticos almacenados en memoria durante PPO a la luz de estos hallazgos. Estos ahorros de memoria pueden utilizarse posteriormente para mejorar el tamaño del lote de entrenamiento, reduciendo la latencia por muestra de PPO hasta en un 65%, según comparaciones de tiempo de ejecución y rendimiento. Presentan un conjunto de mejoras de RLHF llamadas Hydra-RLHF. Crean un modelo basado en decodificador llamado hydra con dos cabezas lineales:

1) Una cabeza causal que predice el token que vendrá después en una secuencia

2) Una cabeza de modelo de recompensa que proporciona la recompensa instantánea vinculada a la misma entrada.

Los modelos de varias cabezas se han estudiado ampliamente, en general, y en relación con el aprendizaje por refuerzo.

Realizaron una investigación comparativa que evalúa la efectividad de varios procedimientos de alineación de modelos medidos por GPT-4. Descubrieron que LoRA-PPO tiene una mejor alineación que FFT, pero es más costoso. Introducen Hydra-RLHF, que combina modelos de referencia y recompensa y cambia dinámicamente el módulo LoRA actual durante PPO, como una forma de reducir el uso de memoria manteniendo la velocidad. Hydra-RLHF puede entrenar con una latencia por muestra hasta un 65% más rápida utilizando una mayor tamaño de lote. Gracias a Hydra-RLHF, la comunidad ahora puede utilizar RLHF para una gama más amplia de modelos y aplicaciones.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Cómo la inteligencia artificial protege (y ataca) tu bandeja de entrada.

Las empresas, como Google, están buscando formas en que la inteligencia artificial y el aprendizaje automático puedan...

Inteligencia Artificial

Búsqueda de Google en India ahora está impulsada por IA | Aprende cómo usarlo

Google ha desatado una innovación revolucionaria que redefinirá la forma en que los indios y japoneses exploran el va...

Inteligencia Artificial

Google AI presenta SimPer un marco contrastivo auto-supervisado para aprender información periódica en los datos

En los últimos años, el reconocimiento y la comprensión de los datos periódicos se han vuelto vitales para una amplia...

Inteligencia Artificial

Explicar decisiones médicas en entornos clínicos utilizando Amazon SageMaker Clarify

En esta publicación, mostramos cómo mejorar la explicabilidad del modelo en entornos clínicos utilizando Amazon SageM...

Inteligencia Artificial

¿Invertir en IA? Aquí tienes qué considerar

Todo lo que necesitas saber sobre invertir en iniciativas de IA.

Ciencias de la Computación

Robots de entrega de comida de Uber Eats listos para ser utilizados en múltiples ciudades de EE. UU.

La compañía de robots de servicio Serve Robotics informó que Uber Eats desplegará hasta 2,000 de sus robots de entreg...