Investigadores de Stanford proponen ‘EquivAct’ Un avance en el aprendizaje de robots para generalizar tareas en diferentes escalas y orientaciones

Investigadores de Stanford presentan 'EquivAct' Un avance en el aprendizaje de robots para la generalización de tareas en diversas escalas y orientaciones

Los seres humanos pueden extrapolar y aprender a resolver variaciones de una tarea de manipulación si los objetos involucrados tienen atributos visuales o físicos variados, dado solo algunos ejemplos de cómo completar la tarea con objetos estándar. Para hacer que las políticas aprendidas sean universales para diferentes escalas, orientaciones y apariencias visuales de los objetos, los estudios existentes en el aprendizaje de robots aún necesitan una considerable ampliación de datos. Sin embargo, a pesar de estas mejoras, no se garantiza la generalización a variaciones no descubiertas.

Un nuevo artículo de la Universidad de Stanford investiga el desafío del aprendizaje sin muestras de una política visomotora que pueda tomar como entrada un pequeño número de trayectorias de muestra de un escenario de manipulación de una sola fuente y generalizar a escenarios con apariencias visuales, tamaños y poses de objetos no vistos. En particular, era importante aprender políticas para lidiar con objetos deformables y articulados, como ropa o cajas, además de objetos rígidos, como recoger y colocar. Para asegurarse de que la política aprendida sea robusta ante diferentes ubicaciones, orientaciones y escalas de objetos, la propuesta fue incorporar la equivariancia en la representación visual de objetos y en la arquitectura de la política.

Presentan EquivAct, un nuevo enfoque de aprendizaje de políticas visomotoras que puede aprender políticas de bucle cerrado para tareas de manipulación de robots en 3D a partir de demostraciones en un escenario de manipulación de una sola fuente y generalizar sin muestras a escenarios no vistos. La política aprendida toma como entrada las posturas del efector final del robot y una nube de puntos parcial del entorno, y como salida las acciones del robot, como la velocidad del efector final y los comandos del sujetador. A diferencia de la mayoría de los trabajos anteriores, los investigadores utilizaron arquitecturas de redes SIM(3)-equivariantes para sus redes neuronales. Esto significa que las velocidades de los efector final de salida se ajustarán de acuerdo cuando la nube de puntos de entrada y las posiciones del efector final se traduzcan y roten. Dado que su arquitectura de política es equivariante, puede aprender de demostraciones de actividades en una mesa a escala pequeña y luego generalizar sin muestras a tareas de manipulación móvil que involucren variaciones mayores de los objetos demostrados con apariencias visuales y físicas distintas.

Este enfoque se divide en dos partes: aprender la representación y la política. Para entrenar las representaciones del agente, el equipo primero le proporciona un conjunto de nubes de puntos sintéticas que se capturaron utilizando la misma cámara y configuración que los objetos de la tarea objetivo, pero con una escala no uniforme aleatoria diferente. Complementaron los datos de entrenamiento de esta manera para adaptarse a la escala no uniforme, incluso si se sugiere que la arquitectura propuesta es equivariante a la escala uniforme. Los datos simulados no tienen que mostrar actividades de robots ni siquiera demostrar la tarea real. Para extraer características globales y locales de la nube de puntos de la escena, utilizan los datos simulados para entrenar una arquitectura codificador-decodificador SIM(3)-equivariante. Durante el entrenamiento, se utilizó una pérdida de aprendizaje por contraste en entradas emparejadas de la nube de puntos para combinar características locales de secciones de objetos relacionados en posiciones similares. Durante la fase de aprendizaje de la política, se presumió que el acceso a una muestra de trayectorias de tareas previamente verificadas es limitado.

Los investigadores utilizan datos para entrenar una política de bucle cerrado que, dado un punto parcial de la nube de la escena como entrada, utiliza un codificador anteriormente aprendido para extraer características globales y locales de la nube de puntos y luego alimenta esas características en una red de predicción de acciones SIM(3)-equivariante para predecir los movimientos del efector final. Más allá de las tareas de manipulación de objetos rígidos estándar de trabajos anteriores, el método propuesto se evalúa en tareas más complejas como doblar la manta, cubrir un contenedor y sellar una caja.

El equipo presenta muchos ejemplos humanos en los que una persona manipula un objeto en una mesa para cada actividad. Después de demostrar el método, lo evaluaron en una plataforma de manipulación móvil, donde los robots tendrán que resolver el mismo problema a una escala mucho mayor. Los resultados muestran que este método es capaz de aprender una política de manipulación de robots de bucle cerrado a partir de las demostraciones de manipulación de origen y ejecutar el trabajo objetivo en una sola ejecución sin necesidad de ajustes finos. Además, se demuestra que el enfoque es más eficiente que eso y se basa en augmentaciones significativas para la generalización a poses y escalas de objetos fuera de la distribución. También supera a trabajos que no aprovechan la equivariancia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La inteligencia artificial ayuda a los robots a manipular objetos con todo su cuerpo

Con una nueva técnica, un robot puede razonar eficientemente sobre objetos en movimiento utilizando más que solo sus ...

Inteligencia Artificial

La burbuja de la IA generativa estallará pronto

Debido a la exageración insostenible, las valoraciones poco realistas, las limitaciones de la tecnología actual y los...

Inteligencia Artificial

ChatGPT responde incorrectamente a más de la mitad de las preguntas de ingeniería de software

ChatGPT respondió incorrectamente el 52% de 517 preguntas de Stack Overflow, y el 77% de las respuestas fueron innece...