¿Cómo funciona el PPO con recorte?
¿Cómo funciona el PPO con recorte en la belleza y la moda?
Intuición + matemáticas + código, para practicantes
En Aprendizaje por Reforzamiento, la Optimización de Políticas Proximales (PPO) se cita a menudo como el ejemplo para un enfoque de política, en comparación con DQN (un enfoque basado en el valor) y la gran familia de métodos actor-critic, que incluye TD3 y SAC.
Recordé que hace algún tiempo, cuando lo estaba aprendiendo por primera vez, estaba convencido. Muchos profesores adoptan un enfoque algo superficial. Yo no compro eso, y tú tampoco deberías hacerlo.
En este artículo, intentaré explicar cómo funciona PPO, respaldando las matemáticas con intuición y código. Puedes probar diferentes escenarios y ver por ti mismo que funciona no solo en teoría, sino también en la práctica, y que no hay selección de datos.
¿Por qué molestarse?
PPO y los otros modelos SOTA se pueden implementar en minutos usando stable-baselines3 (sb3). Cualquiera que siga la documentación puede hacerlo funcionar, sin conocimiento del modelo subyacente.
- Aprovechando la IA para un mundo mejor
- Investigadores de China revelan ImageReward Un enfoque revolucionario de inteligencia artificial para optimizar los modelos de texto a imagen utilizando la retroalimentación de las preferencias humanas
- Explorando ideas contrafactuales de la correlación a la causalidad en el análisis de datos
Sin embargo, ya sea que seas un practicante o un teórico, los fundamentos son importantes. Si simplemente tratas PPO (o cualquier otro modelo en cuestión) como una caja negra, ¿cómo esperas que tus usuarios confíen en lo que entregas?
Más adelante este mes, haré un recorrido detallado del código, escribiendo un envoltorio para que cualquier entorno, ya sea de Gymnasium o propio, funcione con cualquier modelo de sb3, independientemente de si el espacio es ‘Discreto’ o ‘Box’. (El mes pasado, mostré cómo se pueden derivar Montecarlo, SARSA y Q-learning de TD(λ), todo con un solo conjunto de código.)
Suficiente por hoy, ¡estemos aquí, ahora mismo!
Predecesor de PPO
La política de gradiente básica es el caso más básico de los métodos basados en políticas, donde la política se aprende y actualiza directamente, en lugar de derivarse de alguna función de valor. La desventaja es que sufre de alta varianza en las actualizaciones de la política, lo cual es problemático para la convergencia, especialmente en entornos con recompensas escasas.
Matemáticas de TRPO
TRPO (Optimización de Política de Región de Confianza) asegura que la nueva política (donde ‘nueva’ se refiere después de una actualización) no se desvíe demasiado de la política antigua. Esto se logra…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- OpenAI contempla unirse a la Liga de la fabricación de chips de IA
- ¡Mejora tus habilidades en motores de búsqueda con el curso de Búsqueda con ML de Uplimit!
- Introducción completa a la generación de imágenes de IA
- Inteligencia Artificial Generativa en Azure Machine Learning Operacionalizando el Desarrollo de Aplicaciones para la Transformación de la IA
- ¿Cómo podemos prever nuestra relación con la IA?
- 3 proyectos de ciencia de datos garantizados para conseguir ese trabajo
- Investigadores de ETH Zurich y Microsoft presentan SCREWS Un marco de inteligencia artificial para mejorar el razonamiento en modelos de lenguaje grandes.