Conoce ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D
Descubre ConceptGraphs Una representación gráfica estructurada de vocabulario abierto para escenas en 3D
La captura y codificación de información sobre una escena visual, típicamente en el contexto de la visión por computadora, la inteligencia artificial o los gráficos, se llama representación de escena. Implica la creación de una representación estructurada o abstracta de los elementos y atributos presentes en una escena, incluyendo objetos, sus posiciones, tamaños, colores y relaciones. Los robots deben construir estas representaciones en línea a partir de sensores a bordo mientras navegan por un entorno.
Las representaciones deben ser escalables y eficientes para mantener el volumen de la escena y la duración de la operación del robot. La biblioteca abierta no debe limitarse a datos predefinidos en la sesión de entrenamiento, sino que debe ser capaz de manejar nuevos objetos y conceptos durante la inferencia. Esto exige flexibilidad para permitir la planificación en una variedad de tareas, como la recolección de información geométrica densa y de información semántica abstracta para la planificación de tareas.
Para incluir los requisitos mencionados anteriormente, los investigadores de la Universidad de Toronto, el MIT y la Universidad de Montreal proponen ConceptGraphs, un método de representación de escena 3D para la percepción y planificación de robots. El proceso tradicional para obtener representaciones de escenas 3D utilizando modelos fundamentales requiere una escala de datos de entrenamiento en Internet, y los conjuntos de datos 3D aún deben tener un tamaño comparable.
- Una actualización sobre los controles del editor web
- ¡Es posible la exploración multi-dimensional!
- Usar con más frecuencia
Estas representaciones se basan en asignar cada punto en un vector de características semánticas redundantes, lo que consume más memoria de la necesaria, limitando la escalabilidad a escenas grandes. Estas representaciones son densas y no se pueden actualizar dinámicamente en el mapa, por lo que no son fáciles de descomponer. El método desarrollado por el equipo puede describir eficientemente las escenas con estructuras de grafo con representaciones de nodos. Puede construir representaciones jerárquicas de escenas 3D en tiempo real.
ConceptGraphs es un sistema de mapeo centrado en objetos que integra datos geométricos de sistemas de mapeo 3D y datos semánticos de modelos fundamentales 2D. Por lo tanto, este intento de comunicar las representaciones 2D producidas por modelos fundamentales de imágenes e idioma al mundo 3D muestra resultados impresionantes en tareas de vocabulario abierto, incluyendo localización de objetos guiada por lenguaje, razonamiento 3D y navegación.
ConceptGraphs puede construir de manera eficiente gráficos de escenas 3D de vocabulario abierto y abstracciones semánticas estructuradas para la percepción y planificación. El equipo también implementó ConceptGraphs en plataformas robóticas reales con ruedas y patas, y demostró que esos robots pueden realizar planificación de tareas para consultas de lenguaje abstractas con facilidad.
Utilizando fotogramas RGB-D proporcionados, el equipo ejecuta un modelo de segmentación sin clases para obtener objetos candidatos. Los asocia en varias vistas utilizando medidas de similitud geométrica y semántica e instancia nodos en un gráfico de escena 3D. Luego utilizan un LVLM para subtitular cada nodo y un LLM para inferir relaciones entre nodos adyacentes y construir aristas en el gráfico de escena.
Los investigadores afirman que el trabajo futuro implicará la integración de dinámicas temporales en el modelo y evaluar su rendimiento en entornos menos estructurados y más desafiantes. En conclusión, su modelo aborda las limitaciones clave en el panorama existente de representaciones densas e implícitas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Retro-ingeniería de un esquema de base de datos GPT vs. Bard vs. LLama2 (Episodio 2)
- Tipos de Edge ML y casos de uso empresariales
- Explorando el fascinante mundo de la coloración de grafos
- Acelere su pronóstico de series temporales en un 50 por ciento con Amazon SageMaker Canvas UI y las API de AutoML.
- Algoritmo de Búsqueda en Profundidad (DFS) Explorando las Profundidades del Recorrido de Grafos
- Utilizando la biblioteca Weka para el análisis de datos de Facebook
- Potenciando soluciones del mundo real la sinergia de la IA y .NET