Investigadores de UC San Diego presentan TD-MPC2 Revolucionando el aprendizaje de refuerzo basado en modelos en diversos dominios

Investigadores de la UC San Diego revolucionan el aprendizaje de refuerzo basado en modelos en diversos dominios con TD-MPC2

Los Modelos de Lenguaje Grandes (LLMs) están constantemente mejorando, gracias a los avances en Inteligencia Artificial y Aprendizaje Automático. Los LLMs están logrando un progreso significativo en subcampos de la IA, incluyendo Procesamiento de Lenguaje Natural, Comprensión de Lenguaje Natural, Generación de Lenguaje Natural y Visión por Computadora. Estos modelos se entrenan con conjuntos de datos masivos a escala de internet para desarrollar modelos generalistas que pueden manejar una variedad de tareas lingüísticas y visuales. La disponibilidad de conjuntos de datos grandes y arquitecturas bien pensadas que pueden escalar de manera efectiva con el tamaño de los datos y del modelo se atribuye al crecimiento.

Recientemente, los LLMs se han extendido con éxito a la robótica. Sin embargo, todavía falta lograr un agente generalista incorporado que aprenda a realizar muchas tareas de control a través de acciones de bajo nivel a partir de una gran cantidad de conjuntos de datos no curados. Los enfoques actuales para los agentes generalistas enfrentan dos obstáculos principales, que son los siguientes.

Suposición de Trayectorias Cercanas a la Experta: Debido a la severa limitación de la cantidad de datos disponibles, muchos métodos existentes para el clonado de comportamiento se basan en trayectorias cercanas a la experta. Esto implica que los agentes son menos flexibles para realizar diferentes tareas, ya que requieren demostraciones de alta calidad similares a las de un experto para aprender.

Ausencia de Métodos de Control Continuo Escalables: Muchos de los conjuntos de datos grandes y no curados no pueden ser manejados de manera efectiva por varios métodos de control continuo escalables. Muchos de los algoritmos de aprendizaje por refuerzo (RL) existentes dependen de hiperparámetros específicos de la tarea y están optimizados para el aprendizaje de una sola tarea.

Como solución a estos desafíos, un equipo de investigadores ha presentado recientemente TD-MPC2, una expansión de los algoritmos de RL basados en modelos de la familia TD-MPC (Modelo Predictivo de Distribución de Trayectoria). Se han utilizado conjuntos de datos grandes y no curados que abarcan varios dominios de tareas, encarnaciones y espacios de acciones para entrenar TD-MPC2, un sistema para la construcción de modelos del mundo generalistas. Una de sus características significativas es que no requiere ajuste de hiperparámetros.

Los principales elementos de TD-MPC2 son los siguientes:

Optimización de Trayectorias Locales en el Espacio Latente: Sin la necesidad de un decodificador, TD-MPC2 lleva a cabo la optimización de trayectorias locales en el espacio latente de un modelo del mundo implícito entrenado.

Robustez Algorítmica: Al repasar decisiones de diseño importantes, el algoritmo se vuelve más resistente.

Arquitectura para Varias Encarnaciones y Espacios de Acción: Sin requerir experiencia previa en dominios específicos, la arquitectura se crea cuidadosamente para admitir conjuntos de datos con múltiples encarnaciones y espacios de acción.

El equipo ha compartido que, al ser evaluado, TD-MPC2 presenta rutinariamente un mejor rendimiento que los enfoques basados en modelos y sin modelos que se utilizan actualmente para una variedad de tareas de control continuo. Funciona especialmente bien en subconjuntos difíciles como las tareas de recoger y colocar y locomoción. Las capacidades aumentadas del agente demuestran escalabilidad a medida que el tamaño del modelo y los datos crecen.

El equipo ha resumido algunas características destacables de TD-MPC2, que son las siguientes:

Mejor Rendimiento: Cuando se utiliza en una variedad de tareas de RL, TD-MPC2 proporciona mejoras en comparación con los algoritmos de referencia.

Consistencia con un Solo Conjunto de Hiperparámetros: Una de las principales ventajas de TD-MPC2 es su capacidad para producir resultados impresionantes de manera confiable con un solo conjunto de hiperparámetros. Esto simplifica el proceso de ajuste y facilita su aplicación a una variedad de trabajos.

Escalabilidad: Las capacidades del agente aumentan a medida que tanto el tamaño del modelo como el de los datos crecen. Esta escalabilidad es esencial para manejar trabajos más complejos y adaptarse a diferentes situaciones.

El equipo ha entrenado a un solo agente con un número considerable de parámetros, 317 millones, para realizar 80 tareas, lo que demuestra la escalabilidad y eficacia de TD-MPC2. Estas tareas requieren varias encarnaciones, es decir, formas físicas del agente y espacios de acciones en múltiples dominios de tareas. Esto demuestra la versatilidad y fortaleza de TD-MPC2 para abordar una amplia gama de dificultades.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaff

Was this article helpful?

93 out of 132 found this helpful

Investigadores de UC San Diego presentan TD-MPC2 Revolucionando el aprendizaje de refuerzo basado en modelos en diversos dominios

Was this article helpful?

La Casa Blanca firma una orden ejecutiva para abordar las preocupaciones sobre la seguridad de la inteligencia artificial

Visualizaciones alternativas para contar historias con datos

Inteligencia Artificial

La lucha por reparar

Acélere los resultados comerciales con mejoras del 70% en el rendimiento del procesamiento de datos, entrenamiento e inferencia con Amazon SageMaker Canvas

¿Es verdaderamente seguro el IA multilingüe? Exponiendo las vulnerabilidades de los grandes modelos de lenguaje en idiomas con recursos limitados

Investigadores de Samsung AI presentan Neural Haircut un nuevo método de IA para reconstruir la geometría basada en hebras del cabello humano a partir de videos o imágenes.

Detectando el Crecimiento del Cáncer Utilizando Inteligencia Artificial y Visión por Computadora.

El año en que la inteligencia artificial se comió internet