¿Cómo funciona el PPO con recorte?

¿Cómo funciona el PPO con recorte en la belleza y la moda?

Intuición + matemáticas + código, para practicantes

Foto de Tamanna Rumee en Unsplash

En Aprendizaje por Reforzamiento, la Optimización de Políticas Proximales (PPO) se cita a menudo como el ejemplo para un enfoque de política, en comparación con DQN (un enfoque basado en el valor) y la gran familia de métodos actor-critic, que incluye TD3 y SAC.

Recordé que hace algún tiempo, cuando lo estaba aprendiendo por primera vez, estaba convencido. Muchos profesores adoptan un enfoque algo superficial. Yo no compro eso, y tú tampoco deberías hacerlo.

En este artículo, intentaré explicar cómo funciona PPO, respaldando las matemáticas con intuición y código. Puedes probar diferentes escenarios y ver por ti mismo que funciona no solo en teoría, sino también en la práctica, y que no hay selección de datos.

¿Por qué molestarse?

PPO y los otros modelos SOTA se pueden implementar en minutos usando stable-baselines3 (sb3). Cualquiera que siga la documentación puede hacerlo funcionar, sin conocimiento del modelo subyacente.

Sin embargo, ya sea que seas un practicante o un teórico, los fundamentos son importantes. Si simplemente tratas PPO (o cualquier otro modelo en cuestión) como una caja negra, ¿cómo esperas que tus usuarios confíen en lo que entregas?

Más adelante este mes, haré un recorrido detallado del código, escribiendo un envoltorio para que cualquier entorno, ya sea de Gymnasium o propio, funcione con cualquier modelo de sb3, independientemente de si el espacio es ‘Discreto’ o ‘Box’. (El mes pasado, mostré cómo se pueden derivar Montecarlo, SARSA y Q-learning de TD(λ), todo con un solo conjunto de código.)

Suficiente por hoy, ¡estemos aquí, ahora mismo!

Predecesor de PPO

La política de gradiente básica es el caso más básico de los métodos basados en políticas, donde la política se aprende y actualiza directamente, en lugar de derivarse de alguna función de valor. La desventaja es que sufre de alta varianza en las actualizaciones de la política, lo cual es problemático para la convergencia, especialmente en entornos con recompensas escasas.

Matemáticas de TRPO

TRPO (Optimización de Política de Región de Confianza) asegura que la nueva política (donde ‘nueva’ se refiere después de una actualización) no se desvíe demasiado de la política antigua. Esto se logra…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Experimenta la Realidad Aumentada (AR) directamente con tus propios ojos utilizando la IA

En un avance tecnológico, Brilliant Labs ha revolucionado el mercado de la Realidad Aumentada con su innovadora lente...

Inteligencia Artificial

Apple y Google pasan por alto ChatGPT como la aplicación del año

En un giro sorprendente de los acontecimientos, los gigantes tecnológicos Apple y Google han divergido de sus patrone...

Inteligencia Artificial

Pagaste $1,000 por un iPhone, pero Apple todavía lo controla

La empresa codifica sus dispositivos con software que complican las reparaciones al activar advertencias de seguridad...

Inteligencia Artificial

Investigadores cultivan matrices precisas de nanoLEDs

Una nueva técnica produce nanocristales de perovskita justo donde se necesitan, para que los materiales extremadament...

Inteligencia Artificial

NVIDIA brinda apoyo a los esfuerzos de Washington para garantizar la seguridad de la inteligencia artificial

En un evento en la Casa Blanca hoy, NVIDIA anunció su apoyo a compromisos voluntarios que la Administración Biden des...

Inteligencia Artificial

Luma AI lanza Genie un nuevo modelo de IA generativa en 3D que te permite crear objetos en 3D a partir de texto.

En el modelado 3D, crear objetos 3D realistas a menudo ha sido una tarea compleja y que consume mucho tiempo. Las per...