Perro Robot Hace Moonwalk al Estilo MJ Esta Investigación de IA Propone Utilizar Recompensas Representadas en Código como una Interfaz Flexible Entre LLMs y un Controlador de Movimiento Basado en Optimización.
Robot perro hace moonwalk al estilo MJ. IA propone usar recompensas en código como interfaz flexible para LLMs y controlador de movimiento.
La industria de la Inteligencia Artificial ha tomado el control del mundo en tiempos recientes. Con el lanzamiento de investigaciones y modelos nuevos y únicos casi todos los días, la IA está evolucionando y mejorando. Ya sea que consideremos el dominio de la atención médica, la educación, el marketing o el negocio, las prácticas de Inteligencia Artificial y Aprendizaje Automático están empezando a transformar la forma en que operan las industrias. La introducción de los Modelos de Lenguaje Extensos (LLMs, por sus siglas en inglés), un avance bien conocido en la IA, está siendo adoptada por casi todas las organizaciones. Famosos LLMs como GPT-3.5 y GPT-4 han demostrado una impresionante capacidad de adaptación a nuevos contextos, permitiendo tareas como el razonamiento lógico y la generación de código con un número mínimo de muestras fabricadas a mano.
Los investigadores también han explorado el uso de LLMs para mejorar el control robótico en el área de la robótica. Dado que las operaciones de bajo nivel de los robots dependen del hardware y a menudo están subrepresentadas en los datos de entrenamiento de los LLMs, aplicar LLMs a la robótica es difícil. Los enfoques anteriores han visto los LLMs como planificadores semánticos o han dependido de primitivas de control creadas por humanos para comunicarse con los robots. Para abordar todos los desafíos, los investigadores de Google DeepMind han introducido un nuevo paradigma que aprovecha la adaptabilidad y el potencial de optimización de las funciones de recompensa para llevar a cabo una variedad de actividades robóticas.
Las funciones de recompensa actúan como interfaces intermedias definidas de los LLMs, que posteriormente pueden ser optimizadas para dirigir las estrategias de control del robot. Estas funciones son adecuadas para la especificación por parte de los LLMs debido a su riqueza semántica, ya que pueden conectar eficientemente comandos o correcciones de lenguaje de alto nivel con comportamientos de robot de bajo nivel. El equipo ha mencionado que operar a un nivel superior de abstracción utilizando funciones de recompensa como una interfaz entre el lenguaje y las acciones de bajo nivel del robot se ha inspirado en la observación de que las instrucciones del lenguaje humano a menudo describen resultados conductuales en lugar de acciones específicas de bajo nivel. Al conectar las instrucciones con las recompensas, se vuelve más fácil cerrar la brecha entre el lenguaje y los comportamientos del robot, ya que las recompensas capturan la profundidad de la semántica asociada con los resultados deseados.
- La IA responsable en Google Research IA para el bien social
- Investigadores de Deepmind publican TAPIR de código abierto un nuevo modelo de IA para rastrear cualquier punto (TAP) que sigue eficazmente un punto de consulta en una secuencia de video.
- La Administración de Biden selecciona al presidente de Google para el esfuerzo de investigación de chips.
El optimizador en tiempo real MuJoCo MPC (Control Predictivo Modelo) se ha utilizado en este paradigma para permitir el desarrollo de comportamientos interactivos. El proceso de refinamiento iterativo se ha mejorado gracias a la capacidad del usuario para observar los resultados de inmediato y proporcionar información al sistema. Para el proceso de evaluación, el equipo de investigadores diseñó un conjunto de 17 tareas tanto para un robot cuadrúpedo simulado como para un robot manipulador diestro. El método pudo realizar el 90% de las tareas diseñadas con un rendimiento confiablemente bueno. En contraste, una estrategia de referencia que utiliza habilidades primitivas como la interfaz con el Código como políticas solo completó el 50% de las tareas. También se realizaron experimentos en un brazo de robot real para probar la eficiencia de la metodología en la que el sistema interactivo mostró habilidades de manipulación complejas, como empujar sin prensión.
En conclusión, este es un enfoque prometedor con el que se pueden utilizar LLMs para definir parámetros de recompensa y optimizarlos para el control robótico. La combinación de recompensas generadas por LLM y técnicas de optimización en tiempo real muestra un proceso de creación de comportamientos interactivo y basado en comentarios, lo que permite a los usuarios lograr comportamientos robóticos complejos de manera más eficiente y efectiva.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Diseñar coches eléctricos ahora es más rápido con la IA de Toyota.
- Investigadores del Max Plank proponen MIME un modelo de IA generativo que toma capturas de movimiento humano en 3D y genera escenas en 3D plausibles que son consistentes con el movimiento.
- Investigadores de inteligencia artificial de Salesforce presentan OVIS sin máscaras un generador de máscaras de segmentación de instancia de vocabulario abierto.
- Cómo rejuvenecer usando IA Descubierto nuevo medicamento contra el envejecimiento.
- Investigadores de UC San Diego y Qualcomm lanzan Natural Program una herramienta poderosa para la verificación sin esfuerzo de cadenas de razonamiento rigurosas en lenguaje natural – Un cambio de juego en inteligencia artificial.
- Revolutionizando la Navegación Investigadores del MIT Presentan un Nuevo Enfoque de Aprendizaje Automático para la Estabilización y Evitación de Obstáculos en Vehículos Autónomos.
- NVIDIA Research gana el desafío de conducción autónoma y el premio a la innovación en CVPR.