Investigadores de UC San Diego presentan TD-MPC2 Revolucionando el aprendizaje de refuerzo basado en modelos en diversos dominios
Investigadores de la UC San Diego revolucionan el aprendizaje de refuerzo basado en modelos en diversos dominios con TD-MPC2
Los Modelos de Lenguaje Grandes (LLMs) están constantemente mejorando, gracias a los avances en Inteligencia Artificial y Aprendizaje Automático. Los LLMs están logrando un progreso significativo en subcampos de la IA, incluyendo Procesamiento de Lenguaje Natural, Comprensión de Lenguaje Natural, Generación de Lenguaje Natural y Visión por Computadora. Estos modelos se entrenan con conjuntos de datos masivos a escala de internet para desarrollar modelos generalistas que pueden manejar una variedad de tareas lingüísticas y visuales. La disponibilidad de conjuntos de datos grandes y arquitecturas bien pensadas que pueden escalar de manera efectiva con el tamaño de los datos y del modelo se atribuye al crecimiento.
Recientemente, los LLMs se han extendido con éxito a la robótica. Sin embargo, todavía falta lograr un agente generalista incorporado que aprenda a realizar muchas tareas de control a través de acciones de bajo nivel a partir de una gran cantidad de conjuntos de datos no curados. Los enfoques actuales para los agentes generalistas enfrentan dos obstáculos principales, que son los siguientes.
- Suposición de Trayectorias Cercanas a la Experta: Debido a la severa limitación de la cantidad de datos disponibles, muchos métodos existentes para el clonado de comportamiento se basan en trayectorias cercanas a la experta. Esto implica que los agentes son menos flexibles para realizar diferentes tareas, ya que requieren demostraciones de alta calidad similares a las de un experto para aprender.
- Ausencia de Métodos de Control Continuo Escalables: Muchos de los conjuntos de datos grandes y no curados no pueden ser manejados de manera efectiva por varios métodos de control continuo escalables. Muchos de los algoritmos de aprendizaje por refuerzo (RL) existentes dependen de hiperparámetros específicos de la tarea y están optimizados para el aprendizaje de una sola tarea.
Como solución a estos desafíos, un equipo de investigadores ha presentado recientemente TD-MPC2, una expansión de los algoritmos de RL basados en modelos de la familia TD-MPC (Modelo Predictivo de Distribución de Trayectoria). Se han utilizado conjuntos de datos grandes y no curados que abarcan varios dominios de tareas, encarnaciones y espacios de acciones para entrenar TD-MPC2, un sistema para la construcción de modelos del mundo generalistas. Una de sus características significativas es que no requiere ajuste de hiperparámetros.
- La Casa Blanca firma una orden ejecutiva para abordar las preocupaciones sobre la seguridad de la inteligencia artificial
- Google Search presenta EdiT5 un nuevo modelo de IA de edición de texto con función de corrección gramatical en Google Search
- Esta Investigación de IA presenta DreamCraft3D Un enfoque jerárquico para crear material en 3D que genera modelos en 3D cohesivos y de alta fidelidad.
Los principales elementos de TD-MPC2 son los siguientes:
- Optimización de Trayectorias Locales en el Espacio Latente: Sin la necesidad de un decodificador, TD-MPC2 lleva a cabo la optimización de trayectorias locales en el espacio latente de un modelo del mundo implícito entrenado.
- Robustez Algorítmica: Al repasar decisiones de diseño importantes, el algoritmo se vuelve más resistente.
- Arquitectura para Varias Encarnaciones y Espacios de Acción: Sin requerir experiencia previa en dominios específicos, la arquitectura se crea cuidadosamente para admitir conjuntos de datos con múltiples encarnaciones y espacios de acción.
El equipo ha compartido que, al ser evaluado, TD-MPC2 presenta rutinariamente un mejor rendimiento que los enfoques basados en modelos y sin modelos que se utilizan actualmente para una variedad de tareas de control continuo. Funciona especialmente bien en subconjuntos difíciles como las tareas de recoger y colocar y locomoción. Las capacidades aumentadas del agente demuestran escalabilidad a medida que el tamaño del modelo y los datos crecen.
El equipo ha resumido algunas características destacables de TD-MPC2, que son las siguientes:
- Mejor Rendimiento: Cuando se utiliza en una variedad de tareas de RL, TD-MPC2 proporciona mejoras en comparación con los algoritmos de referencia.
- Consistencia con un Solo Conjunto de Hiperparámetros: Una de las principales ventajas de TD-MPC2 es su capacidad para producir resultados impresionantes de manera confiable con un solo conjunto de hiperparámetros. Esto simplifica el proceso de ajuste y facilita su aplicación a una variedad de trabajos.
- Escalabilidad: Las capacidades del agente aumentan a medida que tanto el tamaño del modelo como el de los datos crecen. Esta escalabilidad es esencial para manejar trabajos más complejos y adaptarse a diferentes situaciones.
El equipo ha entrenado a un solo agente con un número considerable de parámetros, 317 millones, para realizar 80 tareas, lo que demuestra la escalabilidad y eficacia de TD-MPC2. Estas tareas requieren varias encarnaciones, es decir, formas físicas del agente y espacios de acciones en múltiples dominios de tareas. Esto demuestra la versatilidad y fortaleza de TD-MPC2 para abordar una amplia gama de dificultades.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Gráfico de barras agrupadas con barras de error en R
- ¿Te convertirías en un estratega de datos?
- Jina AI presenta ‘jina-embeddings-v2’ los primeros modelos de incrustación de texto de código abierto 8k del mundo.
- Una guía para subfiguras de Matplotlib para crear complejas figuras de varios paneles
- Algoritmo Genético Encontrando el Horario Óptimo de Entrega de Correos Electrónicos para Maximizar el Compromiso
- Conoce CommonCanvas Un modelo de difusión abierto que ha sido entrenado usando imágenes con licencia Creative Commons
- Liberando el poder del lenguaje Annamalai Chockalingam de NVIDIA sobre el auge de los LLM