Investigadores de Stanford y UT Austin proponen Aprendizaje de Preferencia Contrastiva (APC) un método sencillo de Aprendizaje por Reforzamiento (RL) que no necesita RL y funciona con MDPs arbitrarios y datos fuera de política.

Los expertos de Stanford y UT Austin proponen el Aprendizaje de Preferencia Contrastiva (APC), un método revolucionario de Aprendizaje por Reforzamiento (RL) que no requiere RL y es compatible con cualquier tipo de Problemas de Decisión Markovianos (MDP) y datos fuera de política.

El desafío de combinar las preferencias humanas con los grandes modelos preentrenados ha ganado prominencia en el estudio a medida que estos modelos han mejorado en rendimiento. Esta alineación se vuelve particularmente desafiante cuando hay comportamientos pobres inevitables en los conjuntos de datos más grandes. Para abordar este problema, el aprendizaje por refuerzo a partir de la entrada humana, o RLHF, se ha vuelto popular. Los enfoques de RLHF utilizan las preferencias humanas para distinguir entre comportamientos aceptables y malos con el fin de mejorar una política conocida. Este enfoque ha demostrado resultados alentadores cuando se utiliza para ajustar las reglas de los robots, mejorar los modelos de generación de imágenes y ajustar los modelos de lenguaje grandes (LLMs) utilizando datos menos que ideales. Hay dos etapas en este procedimiento para la mayoría de los algoritmos de RLHF.

Primero, se recopilan datos de preferencia del usuario para entrenar un modelo de recompensa. Un algoritmo de aprendizaje por refuerzo (RL) listo para usar optimiza ese modelo de recompensa. Lamentablemente, necesita haber una corrección en la base de este paradigma de dos fases. Las preferencias humanas deben asignarse según la suma total descontada de las recompensas o el rendimiento parcial de cada segmento de comportamiento para que los algoritmos desarrollen modelos de recompensa a partir de los datos de preferencia. Sin embargo, las investigaciones recientes desafían esta teoría, sugiriendo que las preferencias humanas deberían basarse en el arrepentimiento de cada acción según la política ideal de la función de recompensa del experto. La evaluación humana probablemente se enfoque intuitivamente en la optimalidad en lugar de si las situaciones y comportamientos brindan mayores recompensas.

Por lo tanto, la función de ventaja óptima, o el arrepentimiento negado, puede ser el número ideal para aprender a partir de la retroalimentación en lugar de la recompensa. Los algoritmos de RLHF de dos fases utilizan RL en su segunda fase para optimizar la función de recompensa conocida en la primera fase. En aplicaciones del mundo real, la asignación temporal de crédito presenta una variedad de dificultades de optimización para los algoritmos de RL, incluida la inestabilidad de la programación dinámica de aproximación y la alta varianza de las gradientes de política. Como resultado, los trabajos anteriores restringen su alcance para evitar estos problemas. Por ejemplo, se asume la formulación de bandit contextual por parte de los enfoques RLHF para LLM, donde la política recibe un valor de recompensa único en respuesta a una pregunta del usuario.

La suposición del bandit de un solo paso se rompe porque las interacciones del usuario con LLM son de múltiples pasos y secuenciales, incluso cuando esto reduce la necesidad de asignación de crédito a largo plazo y, como resultado, la alta variación de las gradientes de política. Otro ejemplo es la aplicación de RLHF a problemas de robótica basados en el estado de baja dimensión, que funciona bien para la programación dinámica de aproximación. Sin embargo, aún queda por escalar a dominios de control continuo de alta dimensión con entradas de imágenes, que son más realistas. En general, los enfoques RLHF requieren reducir las restricciones de optimización de RL mediante la realización de suposiciones restrictivas sobre la naturaleza secuencial de los problemas o la dimensionalidad. En general, a menudo se cree erróneamente que la función de recompensa sola determina las preferencias humanas.

En contraste con el modelo de retorno parcial ampliamente utilizado, que considera las recompensas totales, investigadores de la Universidad de Stanford, UMass Amherst y UT Austin presentan una nueva familia de algoritmos RLHF en este estudio que utiliza un modelo de preferencias basado en arrepentimiento. A diferencia del modelo de retorno parcial, el enfoque basado en arrepentimiento proporciona información precisa sobre el mejor curso de acción. Afortunadamente, esto elimina la necesidad de RL, lo que nos permite abordar problemas de RLHF con espacios de estado y acción de alta dimensión en el marco MDP genérico. Su hallazgo fundamental es crear una biyección entre las funciones de ventaja y las políticas combinando el marco de preferencia basado en arrepentimiento con el principio de Máxima Entropía (MaxEnt).

Ellos pueden establecer un objetivo completamente de aprendizaje supervisado cuyo óptimo es la mejor política según la recompensa del experto mediante la optimización de las ventajas en lugar de las políticas. Debido a que su método se asemeja a objetivos de aprendizaje por contraste ampliamente reconocidos, lo llaman Aprendizaje de Preferencia Contrastiva, con tres principales beneficios de CPL en comparación con esfuerzos anteriores. En primer lugar, debido a que CPL coincide exclusivamente con la ventaja óptima utilizando objetivos supervisados, en lugar de utilizar programación dinámica o gradientes de política, puede escalar tanto como el aprendizaje supervisado. En segundo lugar, CPL es completamente fuera de política, lo que permite utilizar cualquier fuente de datos en línea o menos que ideal. Por último, CPL permite búsquedas de preferencias en datos secuenciales para el aprendizaje en Procesos de Decisión de Markov (MDPs) arbitrarios.

Hasta donde saben, las técnicas anteriores para RLHF aún no han cumplido simultáneamente con estos tres requisitos. Ilustran el rendimiento de CPL en problemas de toma de decisiones secuenciales utilizando entradas de políticas subóptimas y de alta dimensión fuera de política para demostrar que se adhiere a los tres principios mencionados anteriormente. Interesantemente, demuestran que CPL puede aprender reglas de manipulación temporalmente extendidas en el MetaWorld Benchmark utilizando eficientemente el mismo proceso de ajuste fino de RLHF que los modelos de diálogo. Para ser más precisos, utilizan el aprendizaje supervisado a partir de observaciones de imágenes de alta dimensión para preentrenar políticas, que luego ajustan finamente utilizando preferencias. CPL puede igualar el rendimiento de técnicas anteriores basadas en RL sin la necesidad de programación dinámica o gradientes de política. Además, es cuatro veces más eficiente en parámetros y 1,6 veces más rápido simultáneamente. En cinco de las seis tareas, CPL supera a los baselines de RL al utilizar datos de preferencia más densos. Los investigadores pueden evitar la necesidad de aprendizaje por refuerzo (RL) utilizando el concepto de entropía máxima para crear Aprendizaje de Preferencia Contrastiva (CPL), un algoritmo para aprender políticas óptimas a partir de preferencias sin aprender funciones de recompensa.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Donde las rocas y la IA chocan La intersección de la mineralogía y la visión por computadora de cero disparos

Los minerales son sustancias inorgánicas de origen natural con una composición química y una estructura cristalina de...

Inteligencia Artificial

GANs (Redes Generativas Adversarias)

GANs, redes generativas adversariales, primero vamos a entender qué son GANs. Así que ya he escrito un blog sobre IA ...

Inteligencia Artificial

Las ratas utilizan la imaginación para navegar en realidad virtual

Investigadores del Instituto Howard Hughes Medical Institute probaron si las ratas, al igual que los humanos, pueden ...

Inteligencia Artificial

Meta AI anuncia Purple Llama para ayudar a la comunidad a construir de manera ética con modelos de IA abiertos y generativos.

Gracias al éxito en el aumento de los datos, el tamaño del modelo y la capacidad computacional para la modelización d...

Inteligencia Artificial

¿Qué significa implementar un modelo de aprendizaje automático?

La Ciencia de Datos, un campo prometedor que continúa atrayendo a más y más empresas, está luchando por integrarse en...