Este artículo de IA tiene movimientos Cómo los modelos de lenguaje se adentran en el aprendizaje por refuerzo sin conexión con los pasos de baile de ‘LaMo’ y el aprendizaje de pocos disparos
Este artículo de IA se mueve al ritmo de los modelos de lenguaje que dominan el aprendizaje por refuerzo sin conexión, al estilo de los pasos de baile de 'LaMo' y el aprendizaje de pocos disparos
Investigadores presentan Language Models for Motion Control (LaMo), un marco utilizando Large Language Models (LLMs) para el aprendizaje por refuerzo sin conexión en línea. Aprovecha los LLMs pre-entrenados para mejorar el aprendizaje de políticas de RL, empleando Decision Transformers (DT) inicializados con LLMs y afinación fina de LoRA. LaMo supera a los métodos existentes en tareas de recompensa escasa y acorta la brecha entre el aprendizaje por refuerzo offline basado en valores y los transformers de decisión en tareas de recompensa densa, destacando especialmente en escenarios con muestras de datos limitadas.
La investigación actual explora la sinergia entre los transformers, particularmente DT, y los LLMs para la toma de decisiones en tareas de aprendizaje por refuerzo. Los LLMs han mostrado previamente promesa en la descomposición de tareas de alto nivel y la generación de políticas. LaMo es un marco novedoso que aprovecha LLMs pre-entrenados para tareas de control de movimiento, superando a los métodos existentes en escenarios de recompensa escasa y acortando la brecha entre RL offline basado en valores y transformers de decisión en tareas de recompensa densa. Se basa en trabajos previos como Wiki-RL, con el objetivo de aprovechar mejor los LMs pre-entrenados para RL offline.
El enfoque redefine RL como un problema de modelado de secuencias condicionales. LaMo supera a los métodos existentes combinando LLMs con DT e introduce innovaciones como la afinación fina de LoRA, proyecciones MLP no lineales y pérdida de lenguaje auxiliar. Destaca en tareas de recompensa escasa y acorta la brecha de rendimiento entre métodos basados en valores y basados en DT en escenarios de recompensa densa.
- Ahora, ¿por qué deberíamos preocuparnos por los Sistemas de Recomendación…? Con una introducción suave a Thompson Sampling
- Los Mejores Documentos Importantes de Visión por Computadora de la Semana del 30/10 al 5/11
- Reseña de HitPaw Photo Enhancer ¿El mejor Mejorador de Fotos de IA?
El marco LaMo para el aprendizaje por refuerzo offline incorpora LMs y DTs pre-entrenados. Mejora el aprendizaje de representaciones con perceptrones multicapa y utiliza afinación fina de LoRA con una pérdida de predicción de lenguaje auxiliar para combinar eficazmente el conocimiento de los LMs. Experimentos extensivos en diversas tareas y entornos evalúan el rendimiento bajo diferentes ratios de datos, comparándolo con bases de líneas RL sólidas como CQL, IQL, TD3BC, BC, DT y Wiki-RL.
El marco LaMo destaca en tareas de recompensa escasa y densa, superando a Decision Transformer y Wiki-RL. Supera a varias bases de líneas RL sólidas, incluyendo CQL, IQL, TD3BC, BC y DT, evitando el sobreajuste: la capacidad de aprendizaje robusto de LaMo, especialmente con datos limitados, se beneficia del sesgo inductivo de los LMs pre-entrenados. La evaluación del banco de pruebas D4RL y estudios de abstracción exhaustivos confirman la efectividad de cada componente dentro del marco.
El estudio requiere una exploración en profundidad de técnicas de aprendizaje de representaciones de nivel superior para mejorar la generalización del ajuste fino completo. Las limitaciones computacionales limitan el examen de enfoques alternativos como el entrenamiento conjunto. Aún es necesario abordar el impacto de las diferentes calidades de pre-entrenamiento de los LMs más allá de la comparación de GPT-2, modelos pre-entrenados con parada temprana y modelos pre-entrenados mezclados aleatoriamente. Se requieren resultados numéricos específicos y métricas de rendimiento para respaldar las afirmaciones de rendimiento de vanguardia y superioridad de la base de líneas.
En conclusión, el marco LaMo utiliza LMs pre-entrenados para el control de movimiento en RL offline, logrando un rendimiento superior en tareas de recompensa escasa en comparación con CQL, IQL, TD3BC y DT. Acorta la brecha de rendimiento entre métodos basados en valores y basados en DT en estudios de recompensa densa. LaMo destaca en el aprendizaje de pocas muestras, gracias al sesgo inductivo de los LMs pre-entrenados. Si bien reconoce algunas limitaciones, incluida la competencia de CQL y la pérdida de predicción de lenguaje auxiliar, el estudio tiene como objetivo inspirar una mayor exploración de LMs más grandes en RL offline.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 5 formas en las que puedes utilizar ChatGPT Vision para el análisis de datos
- xAI lanza PromptIDE Una nueva frontera en la ingeniería de prompts y transparencia de la inteligencia artificial
- Descifrando la verdad de los datos Cómo los modelos de lenguaje grandes utilizan las personas para modelar la veracidad
- OpenAI desvela GPT-4 Turbo Un avance personalizable hacia el futuro de la inteligencia artificial
- Los robots reciben una mejora ‘gripante’ ¡AO-Grasp enseña a los bots el arte de no dejar caer tus cosas!
- Este artículo de IA revela DiffEnc Avanzando en los modelos de difusión para mejorar el rendimiento generativo
- Guía de las configuraciones avanzadas de ChatGPT Top P, penalizaciones de frecuencia, temperatura y más