Meet GO To Any Thing (GOAT) Un Sistema Universal de Navegación que puede Encontrar Cualquier Objeto Especificado de Cualquier Manera, ya sea como una Imagen, en Lenguaje, o en una Categoría, en Entornos Completamente Inéditos
Conoce GO To Any Thing (GOAT) Un Sistema Universal de Navegación que puede Encontrar Cualquier Objeto Especificado de Cualquier Forma, ya sea como una Imagen, en Lenguaje, o en una Categoría, en Entornos Completamente Nuevos
Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign, la Universidad Carnegie Mellon, el Instituto de Tecnología de Georgia, la Universidad de California Berkeley, Meta AI Research y Mistral AI ha desarrollado un sistema de navegación universal llamado GO To Any Thing (GOAT). Este sistema está diseñado para la operación autónoma prolongada en entornos domésticos y de almacén. GOAT es un sistema multimodal que puede interpretar objetivos a partir de etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. Es un sistema de por vida que se beneficia de experiencias pasadas. GOAT es agnóstico a la plataforma y adaptable a diversas encarnaciones de robots.
GOAT, un versátil sistema de navegación para robots móviles, es experto en navegación autónoma en diversos entornos utilizando etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. GOAT utiliza estimaciones de profundidad y segmentación semántica para crear un mapa de voxels semánticos en 3D para la detección precisa de instancias de objetos y almacenamiento de memoria. El mapa semántico facilita la representación espacial, el seguimiento de instancias de objetos, obstáculos y áreas exploradas.
GOAT es un sistema de robot móvil inspirado en los conocimientos de navegación animal y humana. GOAT, un sistema de navegación universal, opera de forma autónoma en diversos entornos, ejecutando tareas en función de la entrada humana. Multimodal, de por vida y agnóstico a la plataforma, GOAT utiliza etiquetas de categoría, imágenes objetivo y descripciones de lenguaje para la especificación de objetivos. El estudio evalúa el rendimiento de GOAT en la consecución de instancias multimodales de objetos no vistos y destaca su superioridad, aprovechando la coincidencia de puntos clave de la imagen basada en SuperGLUE sobre la coincidencia de características CLIP en métodos anteriores.
- ExLlamaV2 La biblioteca más rápida para ejecutar LLMs
- Plantilla FastAPI para LLM SaaS Parte 1 – Autenticación y Carga de Archivos
- Investigadores del MIT presentan a MechGPT un precursor basado en el lenguaje que une escalas, disciplinas y modalidades en la modelación de mecánica y materiales.
GOAT, un sistema de navegación universal, emplea un diseño modular y una memoria semántica con conocimiento de instancias para la navegación multimodal basada en imágenes y descripciones de lenguaje. El plan, agnóstico a la plataforma y capaz de aprendizaje de por vida, demuestra sus capacidades a través de experimentos a gran escala en hogares del mundo real. Utilizando métricas como el éxito ponderado por la longitud del camino, se evalúa el rendimiento de GOAT sin mapas precomputados. El agente emplea políticas globales y locales, utilizando el Método de Marcha Rápida para la planificación de rutas y controladores de navegación puntual para alcanzar los puntos de referencia a lo largo del camino.
En pruebas experimentales en nueve hogares, GOAT, un sistema de navegación universal, ha logrado una tasa de éxito del 83%, superando a los métodos anteriores en un 32%. Su tasa de éxito mejoró del 60% en el primer objetivo al 90% después de la exploración, demostrando su adaptabilidad. GOAT manejó sin problemas tareas posteriores como recoger y colocar y navegación social. Los experimentos cualitativos demostraron la implementación de GOAT en los robots Boston Dynamics Spot y Hello Robot Stretch. Experimentos cuantitativos a gran escala en Spot en hogares del mundo real mostraron el rendimiento superior de GOAT en comparación con tres baselines, superando en la coincidencia de instancias y navegación eficiente.
Un diseño multimodal y agnóstico a la plataforma permite la especificación de objetivos a través de diversos medios, incluyendo etiquetas de categoría, imágenes objetivo y descripciones de lenguaje. La arquitectura modular y la memoria semántica con conocimiento de instancias distinguen entre instancias de la misma categoría para una navegación eficaz. Evaluado en experimentos a gran escala sin mapas precomputados, GOAT muestra versatilidad, extendiendo sus capacidades a tareas como recoger y colocar y navegación social.
La trayectoria futura de GOAT implica una exploración exhaustiva de su rendimiento en diversos entornos y escenarios para evaluar su generalización y robustez. Las investigaciones se centrarán en mejorar el umbral de coincidencia para abordar los desafíos durante la prospección. Se explorará aún más el muestreo de instancias basado en la categoría objetivo para mejorar el rendimiento. El desarrollo continuo de GOAT incluye la mejora de las políticas globales y locales y la posible integración de técnicas adicionales para una navegación más eficiente. La evaluación extensa en el mundo real abarcará diferentes robots y tareas para validar la versatilidad de GOAT. Una mayor exploración puede extender la aplicabilidad de GOAT más allá de la navegación a dominios como el reconocimiento de objetos, la manipulación y la interacción.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Haz estas 5 cosas simples para destacar tu currículum de científico de datos del resto
- Este currículum simple me consiguió una entrevista en Google DeepMind
- Comienza a usar Liquid Clustering en lugar de Partitioning para las tablas Delta en Databricks
- Desarrollando tu primera red neuronal en PyTorch
- Meta presenta Emu Video y Emu Edit Avances pioneros en la generación de videos a partir de texto y en la edición precisa de imágenes.
- Investigadores de la Universidad de Chosun presentan un marco de aprendizaje automático para la localización precisa de corales blanqueados utilizando la clasificación de características visuales híbridas en bolsas.
- Investigadores de UC Berkeley proponen un algoritmo de inteligencia artificial que logra la adquisición sin entrenamiento de agentes de diálogo dirigidos por objetivos.