Este documento de IA revela los secretos para optimizar los modelos de lenguaje grandes equilibrar las recompensas y prevenir la sobreoptimización

Este informe de IA desvela los secretos para optimizar los modelos de lenguaje grandes, equilibrar las recompensas y evitar la sobreoptimización

Un equipo de investigadores de UC Berkeley, UCL, CMU y Google Deepmind aborda el desafío de optimizar grandes modelos de lenguaje utilizando modelos de recompensa compuestos derivados de diversos modelos de recompensa más simples. Estos modelos híbridos a menudo necesitan ayuda con la ponderación adecuada de los modelos de componentes, lo que conduce a una sobreoptimización, donde una recompensa más alta se correlaciona con peores calificaciones humanas. Su método propone una solución que utiliza el aprendizaje por refuerzo limitado para evitar que el agente supere el umbral de utilidad de cada modelo de componente.

El estudio se refiere a una amplia historia de investigación sobre la integración de restricciones en el aprendizaje por refuerzo. Menciona estudios de autores como Borkar, Padakandla, Cheung, Lecarpentier y otros. El estudio también destaca la importancia de abordar la no estacionariedad en las funciones de recompensa y cita trabajos de Moskovitz, O’Donoghue y Tarbouriech. Además, el estudio discute el uso de la optimización de políticas regularizadas.

Los LLM (Large Language Models) sobresalen en el procesamiento del lenguaje natural pero enfrentan problemas con la implementación segura y la alineación con las preferencias humanas. El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés) adapta los LLM utilizando modelos de recompensa que imitan las elecciones humanas. Sin embargo, la sobreoptimización de los RM puede conducir a una mala calidad de texto. Su trabajo sugiere una solución con modelos de recompensa compuestos, abordando la sobreoptimización al identificar puntos de referencia y utilizar la optimización limitada. El control ponderado dinámico controla la influencia de cada RM en el proceso de aprendizaje.

El análisis presenta el aprendizaje por refuerzo limitado utilizando multiplicadores de Lagrange para manejar la sobreoptimización en modelos de recompensa compuestos. Impone restricciones en los modelos de recompensa de los componentes, manteniéndolos dentro del rango de evaluación humana efectiva. Se presenta un método adaptativo de optimización sin gradientes para identificar y optimizar puntos de referencia y evitar el uso excesivo del modelo de recompensa. Se consideran diferentes formulaciones de recompensa y umbral de restricción de tarea, incluida la divergencia de KL.

Su enfoque realiza el primer estudio sobre la sobreoptimización en modelos de recompensa compuestos, revelando el impacto significativo de la correlación en los puntos de sobreoptimización. Se utiliza un método adaptativo de optimización sin gradientes para evitar superar los umbrales de los modelos de recompensa. Se discuten algoritmos PPO, incluidos PPO-SAT y All-PPO, para implementar el aprendizaje por refuerzo limitado. Se proporciona un pseudocódigo detallado que cubre varias formulaciones de recompensa y umbral de restricción de tarea.

La investigación se centra en resolver los desafíos de optimización en modelos de recompensa compuestos que afectan la evaluación de calidad del lenguaje. Se utiliza un método adaptativo de optimización sin gradientes para identificar y optimizar puntos de sobreoptimización. El estudio profundiza en la implementación de algoritmos PPO como PPO-SAT y All-PPO. Se enfatiza la importancia de una ponderación adecuada y la consideración de la correlación entre los modelos de recompensa de los componentes para una evaluación efectiva de la calidad del lenguaje.

Investigaciones futuras deben considerar la aplicación de enfoques confiables como ReLOAD para abordar la sobreoptimización en modelos de recompensa compuestos. Explorar la utilidad de formulaciones CMDP para evitar problemas de salida del modelo en casos sin políticas óptimas deterministas es esencial. Se justifica realizar pruebas exhaustivas en diversos dominios y modelos de recompensa compuestos complejos. Investigar métodos alternativos de aprendizaje por refuerzo y evaluar la influencia de estrategias de ponderación y medidas de correlación en el rendimiento del enfoque propuesto es crucial para futuros avances.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El cucaracha cibernético puede navegar por un laberinto

Los investigadores han desarrollado un método para crear cucarachas ciborg para ser utilizadas en misiones de búsqued...

Inteligencia Artificial

Desenmascarando Deepfakes Aprovechando los patrones de estimación de la posición de la cabeza para mejorar la precisión de detección

La aparición de la capacidad de producir videos “falsos” ha generado preocupaciones significativas con re...

Inteligencia Artificial

La recuperación del conocimiento toma el centro del escenario

Para hacer la transición de la implementación del consumidor a la empresarial para GenAI, las soluciones deben constr...

Ciencia de Datos

META's Hiera reduce la complejidad para aumentar la precisión.

Las redes convolucionales han dominado el campo de la visión por computadora durante más de veinte años. Con la llega...

Inteligencia Artificial

Investigadores de Salesforce presentan XGen-Image-1 un modelo de difusión latente de texto a imagen entrenado para reutilizar varios componentes preentrenados.

La generación de imágenes ha surgido como un campo pionero dentro de la Inteligencia Artificial (IA), ofreciendo opor...

Inteligencia Artificial

Conoce vLLM una biblioteca de aprendizaje automático de código abierto para una inferencia y servicio LLM rápidos

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) tienen un impacto cada vez mayor en cómo cambian nue...