Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.

Investigadores de UC Berkeley presentan VIPER, un algoritmo que utiliza modelos de predicción de video preentrenados como recompensa para el aprendizaje por refuerzo sin acción.

El diseño de una función de recompensa manualmente es lento y puede resultar en consecuencias no deseadas. Esto es un obstáculo importante en el desarrollo de agentes de toma de decisiones genéricos basados en aprendizaje por refuerzo (RL).

Los métodos anteriores de aprendizaje basado en video recompensaron a los agentes cuyas observaciones actuales son más parecidas a las de los expertos. No pueden capturar actividades significativas a lo largo del tiempo, ya que las recompensas dependen únicamente de la observación actual. Y la generalización se ve obstaculizada por las técnicas de entrenamiento adversarial que conducen a la colapso del modo.

Investigadores de U.C. Berkeley han desarrollado un método novedoso para extraer incentivos de modelos de predicción de video llamado Video Prediction incentives for reinforcement learning (VIPER). VIPER puede aprender funciones de recompensa a partir de películas en bruto y generalizar a dominios no entrenados.

Primero, VIPER utiliza películas generadas por expertos para entrenar un modelo de predicción. Luego, se utiliza el modelo de predicción de video para entrenar a un agente en aprendizaje por refuerzo para optimizar la log-verosimilitud de las trayectorias del agente. La distribución de las trayectorias del agente debe minimizarse para que coincida con la distribución del modelo de video. Utilizando las verosimilitudes del modelo de video como señal de recompensa directamente, el agente puede ser entrenado para seguir una distribución de trayectoria similar a la del modelo de video. A diferencia de las recompensas a nivel observacional, las proporcionadas por los modelos de video cuantifican la consistencia temporal del comportamiento. También permite marcos de tiempo de entrenamiento más rápidos y mayores interacciones con el entorno, ya que evaluar verosimilitudes es mucho más rápido que hacer simulaciones del modelo de video.

A través de 15 tareas de DMC, 6 tareas de RLBench y 7 tareas de Atari, el equipo realiza un estudio exhaustivo y demuestra que VIPER puede lograr un control a nivel de experto sin usar recompensas de tarea. Según los hallazgos, los agentes de RL entrenados con VIPER superan al aprendizaje por imitación adversarial en general. Dado que VIPER está integrado en el entorno, no importa qué agente de RL se utilice. Los modelos de video ya son generalizables a combinaciones de brazo/tarea no encontradas durante el entrenamiento, incluso en el régimen de conjuntos de datos pequeños.

Los investigadores creen que el uso de modelos de video condicionales grandes y pre-entrenados permitirá funciones de recompensa más flexibles. Con la ayuda de los avances recientes en modelado generativo, creen que su trabajo proporciona a la comunidad una base para la especificación escalable de recompensas a partir de películas sin etiquetar.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningReinforcement LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.

Investigadores de UC Berkeley presentan Video Prediction Rewards (VIPER) un algoritmo que aprovecha los modelos de predicción de video preentrenados como señales de recompensa sin acción para el aprendizaje por refuerzo.

Was this article helpful?

Optimización del controlador PID Un enfoque de descenso de gradiente

LLMs superan al aprendizaje por refuerzo Conozca SPRING un innovador marco de trabajo de sugerencias para LLMs diseñado para permitir la planificación y el razonamiento en cadena de pensamiento en contexto.

Inteligencia Artificial

Decodificación anticipada un algoritmo de decodificación paralela para acelerar la inferencia de LLM

Este artículo de IA hace público HyperDreamer un avance en la creación de contenido 3D con texturizado avanzado, modelado de 360 grados y edición interactiva

Mejore las respuestas de LLM en casos de uso de RAG interactuando con el usuario

Potenciando la fiabilidad del aprendizaje automático Cómo la atipicidad mejora el rendimiento del modelo y la cuantificación de la incertidumbre

Utilizando Psicología para Fortalecer la Ciberseguridad

Evaluación de los Modelos de Lenguaje Grandes Conozca a AgentSims, un Marco de Inteligencia Artificial Basado en Tareas para Pruebas Completas y Objetivas