Perro Robot Hace Moonwalk al Estilo MJ Esta Investigación de IA Propone Utilizar Recompensas Representadas en Código como una Interfaz Flexible Entre LLMs y un Controlador de Movimiento Basado en Optimización.

Robot perro hace moonwalk al estilo MJ. IA propone usar recompensas en código como interfaz flexible para LLMs y controlador de movimiento.

La industria de la Inteligencia Artificial ha tomado el control del mundo en tiempos recientes. Con el lanzamiento de investigaciones y modelos nuevos y únicos casi todos los días, la IA está evolucionando y mejorando. Ya sea que consideremos el dominio de la atención médica, la educación, el marketing o el negocio, las prácticas de Inteligencia Artificial y Aprendizaje Automático están empezando a transformar la forma en que operan las industrias. La introducción de los Modelos de Lenguaje Extensos (LLMs, por sus siglas en inglés), un avance bien conocido en la IA, está siendo adoptada por casi todas las organizaciones. Famosos LLMs como GPT-3.5 y GPT-4 han demostrado una impresionante capacidad de adaptación a nuevos contextos, permitiendo tareas como el razonamiento lógico y la generación de código con un número mínimo de muestras fabricadas a mano.

Los investigadores también han explorado el uso de LLMs para mejorar el control robótico en el área de la robótica. Dado que las operaciones de bajo nivel de los robots dependen del hardware y a menudo están subrepresentadas en los datos de entrenamiento de los LLMs, aplicar LLMs a la robótica es difícil. Los enfoques anteriores han visto los LLMs como planificadores semánticos o han dependido de primitivas de control creadas por humanos para comunicarse con los robots. Para abordar todos los desafíos, los investigadores de Google DeepMind han introducido un nuevo paradigma que aprovecha la adaptabilidad y el potencial de optimización de las funciones de recompensa para llevar a cabo una variedad de actividades robóticas.

Las funciones de recompensa actúan como interfaces intermedias definidas de los LLMs, que posteriormente pueden ser optimizadas para dirigir las estrategias de control del robot. Estas funciones son adecuadas para la especificación por parte de los LLMs debido a su riqueza semántica, ya que pueden conectar eficientemente comandos o correcciones de lenguaje de alto nivel con comportamientos de robot de bajo nivel. El equipo ha mencionado que operar a un nivel superior de abstracción utilizando funciones de recompensa como una interfaz entre el lenguaje y las acciones de bajo nivel del robot se ha inspirado en la observación de que las instrucciones del lenguaje humano a menudo describen resultados conductuales en lugar de acciones específicas de bajo nivel. Al conectar las instrucciones con las recompensas, se vuelve más fácil cerrar la brecha entre el lenguaje y los comportamientos del robot, ya que las recompensas capturan la profundidad de la semántica asociada con los resultados deseados.

El optimizador en tiempo real MuJoCo MPC (Control Predictivo Modelo) se ha utilizado en este paradigma para permitir el desarrollo de comportamientos interactivos. El proceso de refinamiento iterativo se ha mejorado gracias a la capacidad del usuario para observar los resultados de inmediato y proporcionar información al sistema. Para el proceso de evaluación, el equipo de investigadores diseñó un conjunto de 17 tareas tanto para un robot cuadrúpedo simulado como para un robot manipulador diestro. El método pudo realizar el 90% de las tareas diseñadas con un rendimiento confiablemente bueno. En contraste, una estrategia de referencia que utiliza habilidades primitivas como la interfaz con el Código como políticas solo completó el 50% de las tareas. También se realizaron experimentos en un brazo de robot real para probar la eficiencia de la metodología en la que el sistema interactivo mostró habilidades de manipulación complejas, como empujar sin prensión.

En conclusión, este es un enfoque prometedor con el que se pueden utilizar LLMs para definir parámetros de recompensa y optimizarlos para el control robótico. La combinación de recompensas generadas por LLM y técnicas de optimización en tiempo real muestra un proceso de creación de comportamientos interactivo y basado en comentarios, lo que permite a los usuarios lograr comportamientos robóticos complejos de manera más eficiente y efectiva.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce al Creador Estudiante de Robótica presenta la Silla de Ruedas Autónoma con NVIDIA Jetson

Con la ayuda de la IA, los robots, los tractores y los cochecitos de bebé – incluso los parques de patinaje ...

Inteligencia Artificial

Mejorando los Modelos de Lenguaje con Indicaciones Analógicas para Mejorar el Razonamiento

En los últimos años, los modelos de lenguaje han demostrado una notable habilidad para entender y generar texto simil...

Inteligencia Artificial

Ex CEO de Google empoderará al ejército de Estados Unidos con IA y el Metaverso

El futuro del ejército de los Estados Unidos está a punto de experimentar una transformación revolucionaria. El cambi...

Inteligencia Artificial

5 libros gratuitos para dominar el aprendizaje automático

El Aprendizaje Automático es uno de los campos más emocionantes en la informática hoy en día. En este artículo, echar...