¿Pueden los robots cuadrúpedos de bajo costo dominar el parkour? Revelando un revolucionario sistema de aprendizaje para el movimiento ágil de robots

¿Pueden los robots baratos dominar el parkour? Revelando un nuevo sistema de aprendizaje para el movimiento ágil de robots

La búsqueda de hacer que los robots realicen tareas físicas complejas, como navegar por entornos desafiantes, ha sido un desafío de larga data en robótica. Una de las tareas más exigentes en este campo es el parkour, un deporte que implica atravesar obstáculos con velocidad y agilidad. El parkour requiere una combinación de habilidades, incluyendo escalar, saltar, gatear y balancearse, lo cual es particularmente desafiante para los robots debido a la necesidad de una coordinación precisa, percepción y toma de decisiones. El problema principal que este artículo y documento buscan abordar es cómo enseñar de manera eficiente a los robots estas habilidades ágiles de parkour, permitiéndoles navegar a través de diversos escenarios del mundo real.

Antes de adentrarnos en la solución propuesta, es esencial comprender el estado actual de la técnica en locomoción robótica. Los métodos tradicionales a menudo implican el diseño manual de estrategias de control, lo cual puede ser muy laborioso y requiere más adaptabilidad a diferentes escenarios. El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha mostrado promesa en la enseñanza de tareas complejas a los robots. Sin embargo, los métodos de RL enfrentan desafíos relacionados con la exploración y la transferencia de habilidades aprendidas de la simulación al mundo real.

Ahora, exploremos el enfoque innovador presentado por un equipo de investigación para abordar estos desafíos. Los investigadores han desarrollado un método de RL de dos etapas diseñado para enseñar de manera efectiva habilidades de parkour a los robots. La singularidad de su enfoque radica en la integración de “restricciones de dinámica suave” durante la fase inicial de entrenamiento, lo cual es crucial para la adquisición eficiente de habilidades.

El enfoque de los investigadores comprende varios componentes clave que contribuyen a su efectividad.

1. Políticas de habilidades especializadas: La base del método implica la construcción de políticas de habilidades especializadas esenciales para el parkour. Estas políticas se crean utilizando una combinación de redes neuronales recurrentes (GRU) y perceptrones multicapa (MLP) que generan posiciones articulares. Consideran diversas entradas sensoriales, incluyendo imágenes de profundidad, propiocepción (conciencia de la posición del cuerpo), acciones previas y más. Esta combinación de entradas permite a los robots tomar decisiones informadas basadas en su entorno.

2. Restricciones de dinámica suave: El aspecto innovador del enfoque radica en el uso de “restricciones de dinámica suave” durante la fase inicial de entrenamiento. Estas restricciones guían el proceso de aprendizaje proporcionando a los robots información crítica sobre su entorno. Al introducir restricciones de dinámica suave, los investigadores aseguran que los robots puedan explorar y aprender habilidades de parkour de manera eficiente. Esto resulta en un aprendizaje más rápido y un rendimiento mejorado.

3. Entornos simulados: Los investigadores utilizan entornos simulados creados con IsaacGym para entrenar las políticas de habilidades especializadas. Estos entornos consisten en 40 pistas, cada una con 20 obstáculos de diferentes dificultades. Las propiedades de los obstáculos, como altura, anchura y profundidad, aumentan linealmente en complejidad a lo largo de las pistas. Esta configuración permite a los robots aprender habilidades de parkour progresivamente desafiantes.

4. Estructuras de recompensa: Las estructuras de recompensa son cruciales en el aprendizaje por refuerzo. Los investigadores definen meticulosamente términos de recompensa para cada política de habilidad especializada. Estos términos de recompensa se alinean con objetivos específicos, como velocidad, conservación de energía, profundidad de penetración y volumen de penetración. Las estructuras de recompensa están diseñadas cuidadosamente para incentivar y desalentar comportamientos indeseables.

5. Adaptación de dominio: Transferir habilidades aprendidas en simulación al mundo real es un desafío importante en robótica. Los investigadores emplean técnicas de adaptación de dominio para cerrar esta brecha. Los robots pueden aplicar sus habilidades de parkour en entornos prácticos adaptando las habilidades adquiridas en entornos simulados a escenarios del mundo real.

6. Visión como componente clave: La visión juega un papel fundamental en permitir que los robots realicen parkour con agilidad. Los sensores de visión, como las cámaras de profundidad, proporcionan a los robots información crítica sobre su entorno. Esta percepción visual permite a los robots detectar las propiedades de los obstáculos, prepararse para maniobras ágiles y tomar decisiones informadas al acercarse a los obstáculos.

7. Rendimiento: El método propuesto supera varios métodos y abstracciones de referencia. Especialmente, el enfoque de RL de dos etapas con restricciones de dinámica suave acelera significativamente el aprendizaje. Los robots entrenados utilizando este método logran tasas de éxito más altas en tareas que requieren exploración, como escalar, saltar, gatear y balancearse. Además, las redes neuronales recurrentes resultan indispensables para habilidades que requieren memoria, como escalar y saltar.

En conclusión, esta investigación aborda el desafío de enseñar de manera eficiente habilidades ágiles de parkour a los robots. El innovador enfoque de RL de dos etapas con restricciones de dinámica suave ha revolucionado la forma en que los robots adquieren estas habilidades. Aprovecha la visión, la simulación, las estructuras de recompensa y la adaptación de dominio, abriendo nuevas posibilidades para que los robots naveguen en entornos complejos con precisión y agilidad. La integración de la visión subraya su importancia en la destreza robótica, permitiendo percepción en tiempo real y toma de decisiones dinámica. En resumen, este enfoque innovador marca un avance significativo en la locomoción robótica, resolviendo el problema de enseñar habilidades de parkour y ampliando las capacidades de los robots en tareas complejas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce DISCO Una novedosa técnica de IA para la generación de bailes humanos

La inteligencia artificial generativa ha despertado un gran interés en la comunidad de la visión por computadora. Los...

Inteligencia Artificial

Potenciando la IA en Dispositivos Qualcomm y Meta colaboran con la tecnología Llama 2

El lanzamiento de Llama 2, la nueva versión de código abierto de Meta, ha generado discusiones sobre los casos de uso...

Inteligencia Artificial

Conozca Prompt Diffusion Un marco de inteligencia artificial para permitir el aprendizaje en contexto en modelos generativos basados en difusión

Los modelos de lenguaje grandes de última generación (LLMs), incluyendo BERT, GPT-2, BART, T5, GPT-3 y GPT-4, han sid...

Inteligencia Artificial

LightOn AI lanza Alfred-40B-0723 un nuevo modelo de lenguaje de código abierto (LLM) basado en Falcon-40B.

En un movimiento innovador, LightOn anunció con orgullo el lanzamiento de Alfred-40B-0723, un innovador Modelo de Len...

Inteligencia Artificial

Stability AI lanza el primer modelo japonés de visión y lenguaje

La creación y formulación de un modelo único y completo capaz de manejar una variedad de tareas definidas por el usua...

Inteligencia Artificial

Los ingenieros están en una misión de encontrar fallas

Un algoritmo desarrollado por investigadores del Instituto de Tecnología de Massachusetts tiene como objetivo identif...