Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

Descubre ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D

La captura y codificación de información sobre una escena visual, típicamente en el contexto de la visión por computadora, la inteligencia artificial o los gráficos, se llama representación de escena. Implica la creación de una representación estructurada o abstracta de los elementos y atributos presentes en una escena, incluyendo objetos, sus posiciones, tamaños, colores y relaciones. Los robots deben construir estas representaciones en línea a partir de sensores a bordo mientras navegan por un entorno.

Las representaciones deben ser escalables y eficientes para mantener el volumen de la escena y la duración de la operación del robot. La biblioteca abierta no debe limitarse a datos predefinidos en la sesión de entrenamiento, sino que debe ser capaz de manejar nuevos objetos y conceptos durante la inferencia. Esto exige flexibilidad para permitir la planificación en una variedad de tareas, como la recolección de información geométrica densa y de información semántica abstracta para la planificación de tareas.

Para incluir los requisitos mencionados anteriormente, los investigadores de la Universidad de Toronto, el MIT y la Universidad de Montreal proponen ConceptGraphs, un método de representación de escena 3D para la percepción y planificación de robots. El proceso tradicional para obtener representaciones de escenas 3D utilizando modelos fundamentales requiere una escala de datos de entrenamiento en Internet, y los conjuntos de datos 3D aún deben tener un tamaño comparable.

Estas representaciones se basan en asignar cada punto en un vector de características semánticas redundantes, lo que consume más memoria de la necesaria, limitando la escalabilidad a escenas grandes. Estas representaciones son densas y no se pueden actualizar dinámicamente en el mapa, por lo que no son fáciles de descomponer. El método desarrollado por el equipo puede describir eficientemente las escenas con estructuras de grafo con representaciones de nodos. Puede construir representaciones jerárquicas de escenas 3D en tiempo real.

ConceptGraphs es un sistema de mapeo centrado en objetos que integra datos geométricos de sistemas de mapeo 3D y datos semánticos de modelos fundamentales 2D. Por lo tanto, este intento de comunicar las representaciones 2D producidas por modelos fundamentales de imágenes e idioma al mundo 3D muestra resultados impresionantes en tareas de vocabulario abierto, incluyendo localización de objetos guiada por lenguaje, razonamiento 3D y navegación.

ConceptGraphs puede construir de manera eficiente gráficos de escenas 3D de vocabulario abierto y abstracciones semánticas estructuradas para la percepción y planificación. El equipo también implementó ConceptGraphs en plataformas robóticas reales con ruedas y patas, y demostró que esos robots pueden realizar planificación de tareas para consultas de lenguaje abstractas con facilidad.

Utilizando fotogramas RGB-D proporcionados, el equipo ejecuta un modelo de segmentación sin clases para obtener objetos candidatos. Los asocia en varias vistas utilizando medidas de similitud geométrica y semántica e instancia nodos en un gráfico de escena 3D. Luego utilizan un LVLM para subtitular cada nodo y un LLM para inferir relaciones entre nodos adyacentes y construir aristas en el gráfico de escena.

Los investigadores afirman que el trabajo futuro implicará la integración de dinámicas temporales en el modelo y evaluar su rendimiento en entornos menos estructurados y más desafiantes. En conclusión, su modelo aborda las limitaciones clave en el panorama existente de representaciones densas e implícitas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Revolucionando la tecnología portátil el algoritmo de frecuencia cardíaca ultrarrápido de Edge Impulse y la ampliación de la suite de atención médica

El aprendizaje automático se utiliza en casi todos los aspectos de nuestra vida y en diversos campos. Es una tecnolog...

Inteligencia Artificial

ChatGPT ahora puede responder con palabras habladas

Una versión recién lanzada del chatbot ChatGPT de OpenAI puede interactuar con los usuarios de forma vocal, además de...

Inteligencia Artificial

Diferenciación automática con Python y C++ para el aprendizaje profundo

Esta historia explora la diferenciación automática, una característica de los marcos de trabajo modernos de Deep Lear...

Inteligencia Artificial

La ciudad más avanzada tecnológicamente de Estados Unidos tiene dudas sobre los coches autónomos

Los funcionarios y residentes de San Francisco no están impresionados por los autos autónomos, subrayando los desafío...

Inteligencia Artificial

La incorporación del smartphone podría aumentar la equidad racial en la detección neurológica

Un nuevo accesorio para teléfonos inteligentes podría ser utilizado para realizar pruebas neurológicas de bajo costo,...

Inteligencia Artificial

Investigadores de Stanford y Salesforce AI presentan UniControl un modelo de difusión unificado para el control avanzado en la generación de imágenes de IA.

Los modelos generativos fundamentales son una clase de modelos de inteligencia artificial diseñados para generar nuev...