Meet GO To Any Thing (GOAT) Un Sistema Universal de Navegación que puede Encontrar Cualquier Objeto Especificado de Cualquier Manera, ya sea como una Imagen, en Lenguaje, o en una Categoría, en Entornos Completamente Inéditos

Conoce GO To Any Thing (GOAT) Un Sistema Universal de Navegación que puede Encontrar Cualquier Objeto Especificado de Cualquier Forma, ya sea como una Imagen, en Lenguaje, o en una Categoría, en Entornos Completamente Nuevos

Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign, la Universidad Carnegie Mellon, el Instituto de Tecnología de Georgia, la Universidad de California Berkeley, Meta AI Research y Mistral AI ha desarrollado un sistema de navegación universal llamado GO To Any Thing (GOAT). Este sistema está diseñado para la operación autónoma prolongada en entornos domésticos y de almacén. GOAT es un sistema multimodal que puede interpretar objetivos a partir de etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. Es un sistema de por vida que se beneficia de experiencias pasadas. GOAT es agnóstico a la plataforma y adaptable a diversas encarnaciones de robots.

GOAT, un versátil sistema de navegación para robots móviles, es experto en navegación autónoma en diversos entornos utilizando etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. GOAT utiliza estimaciones de profundidad y segmentación semántica para crear un mapa de voxels semánticos en 3D para la detección precisa de instancias de objetos y almacenamiento de memoria. El mapa semántico facilita la representación espacial, el seguimiento de instancias de objetos, obstáculos y áreas exploradas.

GOAT es un sistema de robot móvil inspirado en los conocimientos de navegación animal y humana. GOAT, un sistema de navegación universal, opera de forma autónoma en diversos entornos, ejecutando tareas en función de la entrada humana. Multimodal, de por vida y agnóstico a la plataforma, GOAT utiliza etiquetas de categoría, imágenes objetivo y descripciones de lenguaje para la especificación de objetivos. El estudio evalúa el rendimiento de GOAT en la consecución de instancias multimodales de objetos no vistos y destaca su superioridad, aprovechando la coincidencia de puntos clave de la imagen basada en SuperGLUE sobre la coincidencia de características CLIP en métodos anteriores.

GOAT, un sistema de navegación universal, emplea un diseño modular y una memoria semántica con conocimiento de instancias para la navegación multimodal basada en imágenes y descripciones de lenguaje. El plan, agnóstico a la plataforma y capaz de aprendizaje de por vida, demuestra sus capacidades a través de experimentos a gran escala en hogares del mundo real. Utilizando métricas como el éxito ponderado por la longitud del camino, se evalúa el rendimiento de GOAT sin mapas precomputados. El agente emplea políticas globales y locales, utilizando el Método de Marcha Rápida para la planificación de rutas y controladores de navegación puntual para alcanzar los puntos de referencia a lo largo del camino.

En pruebas experimentales en nueve hogares, GOAT, un sistema de navegación universal, ha logrado una tasa de éxito del 83%, superando a los métodos anteriores en un 32%. Su tasa de éxito mejoró del 60% en el primer objetivo al 90% después de la exploración, demostrando su adaptabilidad. GOAT manejó sin problemas tareas posteriores como recoger y colocar y navegación social. Los experimentos cualitativos demostraron la implementación de GOAT en los robots Boston Dynamics Spot y Hello Robot Stretch. Experimentos cuantitativos a gran escala en Spot en hogares del mundo real mostraron el rendimiento superior de GOAT en comparación con tres baselines, superando en la coincidencia de instancias y navegación eficiente.

Un diseño multimodal y agnóstico a la plataforma permite la especificación de objetivos a través de diversos medios, incluyendo etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. La arquitectura modular y la memoria semántica con conocimiento de instancias distinguen entre instancias de la misma categoría para una navegación eficaz. Evaluado en experimentos a gran escala sin mapas precomputados, GOAT muestra versatilidad, extendiendo sus capacidades a tareas como recoger y colocar y navegación social.

La trayectoria futura de GOAT implica una exploración exhaustiva de su rendimiento en diversos entornos y escenarios para evaluar su generalización y robustez. Las investigaciones se centrarán en mejorar el umbral de coincidencia para abordar los desafíos durante la prospección. Se explorará aún más el muestreo de instancias basado en la categoría objetivo para mejorar el rendimiento. El desarrollo continuo de GOAT incluye la mejora de las políticas globales y locales y la posible integración de técnicas adicionales para una navegación más eficiente. La evaluación extensa en el mundo real abarcará diferentes robots y tareas para validar la versatilidad de GOAT. Una mayor exploración puede extender la aplicabilidad de GOAT más allá de la navegación a dominios como el reconocimiento de objetos, la manipulación y la interacción.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

En febrero de 2023, Google causó sensación con su IA de música generativa MusicLM. En ese momento, dos cosas quedaron...

Inteligencia Artificial

Optical Vectors Beam Multi-Bits' 'Optical Vectors Beam Multi-Bits' (Rayos Ópticos Multibits)

La técnica funciona modulando el factor de calidad de vector, en lugar de la amplitud de un láser.

Inteligencia Artificial

Acuerdo preliminar de la UE sobre la regulación de la IA Implicaciones para ChatGPT

La Unión Europea recientemente ha logrado un acuerdo preliminar que establece las regulaciones para gobernar modelos ...

Inteligencia Artificial

Este artículo de IA hace público HyperDreamer un avance en la creación de contenido 3D con texturizado avanzado, modelado de 360 grados y edición interactiva

No es fácil generar modelos en 3D detallados y realistas a partir de una sola imagen RGB. Investigadores del Laborato...

Aprendizaje Automático

Salesforce presenta XGen-7B Un nuevo 7B LLM entrenado en secuencias de hasta 8K de longitud para 1.5T Tokens.

Con los recientes avances tecnológicos en inteligencia artificial, los Modelos de Lenguaje Grande, o LLMs en resumen,...