Este artículo de IA tiene movimientos Cómo los modelos de lenguaje se adentran en el aprendizaje por refuerzo sin conexión con los pasos de baile de ‘LaMo’ y el aprendizaje de pocos disparos

Este artículo de IA se mueve al ritmo de los modelos de lenguaje que dominan el aprendizaje por refuerzo sin conexión, al estilo de los pasos de baile de 'LaMo' y el aprendizaje de pocos disparos

Investigadores presentan Language Models for Motion Control (LaMo), un marco utilizando Large Language Models (LLMs) para el aprendizaje por refuerzo sin conexión en línea. Aprovecha los LLMs pre-entrenados para mejorar el aprendizaje de políticas de RL, empleando Decision Transformers (DT) inicializados con LLMs y afinación fina de LoRA. LaMo supera a los métodos existentes en tareas de recompensa escasa y acorta la brecha entre el aprendizaje por refuerzo offline basado en valores y los transformers de decisión en tareas de recompensa densa, destacando especialmente en escenarios con muestras de datos limitadas.

La investigación actual explora la sinergia entre los transformers, particularmente DT, y los LLMs para la toma de decisiones en tareas de aprendizaje por refuerzo. Los LLMs han mostrado previamente promesa en la descomposición de tareas de alto nivel y la generación de políticas. LaMo es un marco novedoso que aprovecha LLMs pre-entrenados para tareas de control de movimiento, superando a los métodos existentes en escenarios de recompensa escasa y acortando la brecha entre RL offline basado en valores y transformers de decisión en tareas de recompensa densa. Se basa en trabajos previos como Wiki-RL, con el objetivo de aprovechar mejor los LMs pre-entrenados para RL offline.

El enfoque redefine RL como un problema de modelado de secuencias condicionales. LaMo supera a los métodos existentes combinando LLMs con DT e introduce innovaciones como la afinación fina de LoRA, proyecciones MLP no lineales y pérdida de lenguaje auxiliar. Destaca en tareas de recompensa escasa y acorta la brecha de rendimiento entre métodos basados en valores y basados en DT en escenarios de recompensa densa.

El marco LaMo para el aprendizaje por refuerzo offline incorpora LMs y DTs pre-entrenados. Mejora el aprendizaje de representaciones con perceptrones multicapa y utiliza afinación fina de LoRA con una pérdida de predicción de lenguaje auxiliar para combinar eficazmente el conocimiento de los LMs. Experimentos extensivos en diversas tareas y entornos evalúan el rendimiento bajo diferentes ratios de datos, comparándolo con bases de líneas RL sólidas como CQL, IQL, TD3BC, BC, DT y Wiki-RL.

El marco LaMo destaca en tareas de recompensa escasa y densa, superando a Decision Transformer y Wiki-RL. Supera a varias bases de líneas RL sólidas, incluyendo CQL, IQL, TD3BC, BC y DT, evitando el sobreajuste: la capacidad de aprendizaje robusto de LaMo, especialmente con datos limitados, se beneficia del sesgo inductivo de los LMs pre-entrenados. La evaluación del banco de pruebas D4RL y estudios de abstracción exhaustivos confirman la efectividad de cada componente dentro del marco.

El estudio requiere una exploración en profundidad de técnicas de aprendizaje de representaciones de nivel superior para mejorar la generalización del ajuste fino completo. Las limitaciones computacionales limitan el examen de enfoques alternativos como el entrenamiento conjunto. Aún es necesario abordar el impacto de las diferentes calidades de pre-entrenamiento de los LMs más allá de la comparación de GPT-2, modelos pre-entrenados con parada temprana y modelos pre-entrenados mezclados aleatoriamente. Se requieren resultados numéricos específicos y métricas de rendimiento para respaldar las afirmaciones de rendimiento de vanguardia y superioridad de la base de líneas.

En conclusión, el marco LaMo utiliza LMs pre-entrenados para el control de movimiento en RL offline, logrando un rendimiento superior en tareas de recompensa escasa en comparación con CQL, IQL, TD3BC y DT. Acorta la brecha de rendimiento entre métodos basados en valores y basados en DT en estudios de recompensa densa. LaMo destaca en el aprendizaje de pocas muestras, gracias al sesgo inductivo de los LMs pre-entrenados. Si bien reconoce algunas limitaciones, incluida la competencia de CQL y la pérdida de predicción de lenguaje auxiliar, el estudio tiene como objetivo inspirar una mayor exploración de LMs más grandes en RL offline.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Un algoritmo para películas de proteínas más nítidas

Los investigadores han creado un algoritmo para analizar con mayor precisión el movimiento ultra rápido de las proteí...

Inteligencia Artificial

La Gran Fuga de Datos Genéticos Lo que Necesitas Saber

Se ha iniciado una demanda colectiva contra una empresa de pruebas genéticas debido al robo de datos genéticos person...

Inteligencia Artificial

Google presenta Project IDX un paraíso para desarrolladores basado en navegador impulsado por IA.

Rompiendo barreras y empujando los límites de la innovación en IA, Google ha presentado su último proyecto, Project I...

Noticias de Inteligencia Artificial

'AI Doctor' predice la readmisión en hospitales y otros resultados de salud.

Los investigadores inventaron un algoritmo de inteligencia artificial para predecir los resultados de salud de los pa...