¿Cómo funciona el PPO con recorte?

¿Cómo funciona el PPO con recorte en la belleza y la moda?

Intuición + matemáticas + código, para practicantes

En Aprendizaje por Reforzamiento, la Optimización de Políticas Proximales (PPO) se cita a menudo como el ejemplo para un enfoque de política, en comparación con DQN (un enfoque basado en el valor) y la gran familia de métodos actor-critic, que incluye TD3 y SAC.

Recordé que hace algún tiempo, cuando lo estaba aprendiendo por primera vez, estaba convencido. Muchos profesores adoptan un enfoque algo superficial. Yo no compro eso, y tú tampoco deberías hacerlo.

En este artículo, intentaré explicar cómo funciona PPO, respaldando las matemáticas con intuición y código. Puedes probar diferentes escenarios y ver por ti mismo que funciona no solo en teoría, sino también en la práctica, y que no hay selección de datos.

¿Por qué molestarse?

PPO y los otros modelos SOTA se pueden implementar en minutos usando stable-baselines3 (sb3). Cualquiera que siga la documentación puede hacerlo funcionar, sin conocimiento del modelo subyacente.

Sin embargo, ya sea que seas un practicante o un teórico, los fundamentos son importantes. Si simplemente tratas PPO (o cualquier otro modelo en cuestión) como una caja negra, ¿cómo esperas que tus usuarios confíen en lo que entregas?

Más adelante este mes, haré un recorrido detallado del código, escribiendo un envoltorio para que cualquier entorno, ya sea de Gymnasium o propio, funcione con cualquier modelo de sb3, independientemente de si el espacio es ‘Discreto’ o ‘Box’. (El mes pasado, mostré cómo se pueden derivar Montecarlo, SARSA y Q-learning de TD(λ), todo con un solo conjunto de código.)

Suficiente por hoy, ¡estemos aquí, ahora mismo!

Predecesor de PPO

La política de gradiente básica es el caso más básico de los métodos basados en políticas, donde la política se aprende y actualiza directamente, en lugar de derivarse de alguna función de valor. La desventaja es que sufre de alta varianza en las actualizaciones de la política, lo cual es problemático para la convergencia, especialmente en entornos con recompensas escasas.

Matemáticas de TRPO

TRPO (Optimización de Política de Región de Confianza) asegura que la nueva política (donde ‘nueva’ se refiere después de una actualización) no se desvíe demasiado de la política antigua. Esto se logra…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Investigadores de la Universidad Tsinghua y Microsoft presentan ToRA un agente de razonamiento integrado con herramientas de inteligencia artificial para la resolución de problemas matemáticos.

¿Cómo funciona el PPO con recorte?

Intuición + matemáticas + código, para practicantes

¿Por qué molestarse?

Predecesor de PPO

Matemáticas de TRPO

Was this article helpful?

Aprovechando la IA para un mundo mejor

Investigadores de la Universidad Tsinghua y Microsoft presentan ToRA un agente de razonamiento integrado con herramientas de inteligencia artificial para la resolución de problemas matemáticos.

Inteligencia Artificial

Experimenta la Realidad Aumentada (AR) directamente con tus propios ojos utilizando la IA

Apple y Google pasan por alto ChatGPT como la aplicación del año

Pagaste $1,000 por un iPhone, pero Apple todavía lo controla

Investigadores cultivan matrices precisas de nanoLEDs

NVIDIA brinda apoyo a los esfuerzos de Washington para garantizar la seguridad de la inteligencia artificial

Luma AI lanza Genie un nuevo modelo de IA generativa en 3D que te permite crear objetos en 3D a partir de texto.