Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana
Microsoft presenta Hydra-RLHF, una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana.
Desde que se hicieron conocidos, los modelos familiares ChatGPT, GPT-4 y Llama-2 han conquistado a los usuarios con su versatilidad como asistentes útiles para varios trabajos. La alineación del modelo utilizando RLHF y muchos otros modelos fundamentales es un factor en su efectividad. El entrenamiento de un modelo de lenguaje enorme crea una red con mucho conocimiento. Sin embargo, debido a que la red no está enseñada a distinguir entre esa información, puede mostrar comportamientos indeseables e incluso causar daño social. Al cambiar el comportamiento del modelo, la alineación busca abordar este problema y se ha vuelto crucial en el desarrollo de modelos fundamentales seguros y manejables.
Aunque RLHF mejora la alineación del modelo, tiene un uso restringido debido a su alta complejidad y los grandes requisitos de memoria al cargar y entrenar numerosos modelos durante PPO. Existe una necesidad crítica de evaluar las variaciones en velocidad y rendimiento de RLHF porque su aplicación aún está en pañales. Examinan el procedimiento de entrenamiento y las arquitecturas de modelos comunes de RLHFPPO para cumplir con este objetivo. Su investigación descubrió perspectivas significativas de reducción de costos de memoria/computación a través del uso compartido de modelos entre Reference/Reward Models y Actor/Critic Models.
Investigadores de Microsoft sugieren Hydra-PPO para minimizar la cantidad de modelos aprendidos y estáticos almacenados en memoria durante PPO a la luz de estos hallazgos. Estos ahorros de memoria pueden utilizarse posteriormente para mejorar el tamaño del lote de entrenamiento, reduciendo la latencia por muestra de PPO hasta en un 65%, según comparaciones de tiempo de ejecución y rendimiento. Presentan un conjunto de mejoras de RLHF llamadas Hydra-RLHF. Crean un modelo basado en decodificador llamado hydra con dos cabezas lineales:
- Investigadores del MIT proponen AskIt un lenguaje específico de dominio para agilizar la integración de modelos de lenguaje grandes en el desarrollo de software.
- Khan Academy lanza Khanmigo, un tutor de aprendizaje de IA generativa
- Word Embeddings Dando contexto a tu ChatBot para obtener mejores respuestas
1) Una cabeza causal que predice el token que vendrá después en una secuencia
2) Una cabeza de modelo de recompensa que proporciona la recompensa instantánea vinculada a la misma entrada.
Los modelos de varias cabezas se han estudiado ampliamente, en general, y en relación con el aprendizaje por refuerzo.
Realizaron una investigación comparativa que evalúa la efectividad de varios procedimientos de alineación de modelos medidos por GPT-4. Descubrieron que LoRA-PPO tiene una mejor alineación que FFT, pero es más costoso. Introducen Hydra-RLHF, que combina modelos de referencia y recompensa y cambia dinámicamente el módulo LoRA actual durante PPO, como una forma de reducir el uso de memoria manteniendo la velocidad. Hydra-RLHF puede entrenar con una latencia por muestra hasta un 65% más rápida utilizando una mayor tamaño de lote. Gracias a Hydra-RLHF, la comunidad ahora puede utilizar RLHF para una gama más amplia de modelos y aplicaciones.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Apple proponen un nuevo modelo de descomposición de tensores para el filtrado colaborativo con retroalimentación implícita
- Clasificación con el Perceptrón de Rosenblatt
- Temas por Clase Utilizando BERTopic
- Esta investigación de IA presenta Point-Bind un modelo de multimodalidad 3D que alinea nubes de puntos con imágenes 2D, lenguaje, audio y video
- Los programas piloto de IA buscan reducir el consumo de energía y las emisiones en el campus del MIT
- Implementar un índice de búsqueda inteligente de documentos con Amazon Textract y Amazon OpenSearch
- Primera parte del cuerpo humano derivada 3D impresa en el espacio