Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles
La revolucionaria investigación de IA con Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles
En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámaras es un tema clave que tiene como objetivo permitir que los sistemas autónomos naveguen y comprendan su entorno. El mapeo geométrico es el énfasis principal de los sistemas SLAM tradicionales, que producen representaciones precisas pero estéticamente básicas del entorno. Sin embargo, los avances recientes en renderizado neuronal han demostrado que es posible incorporar la reconstrucción de imágenes fotorrealistas en el proceso de SLAM, lo que podría mejorar las habilidades de percepción de los sistemas robóticos.
Los enfoques existentes dependen significativamente de representaciones implícitas, lo que los hace computacionalmente exigentes e inadecuados para su implementación en dispositivos con recursos limitados, a pesar de que la fusión de renderizado neuronal con SLAM ha producido resultados prometedores. Por ejemplo, ESLAM utiliza componentes compactos tensoriales a múltiples escalas, mientras que Nice-SLAM utiliza una rejilla jerárquica para almacenar características aprendibles que reflejan el entorno. Posteriormente, colaboran para estimar las posiciones de la cámara y maximizar las características mediante la reducción de la pérdida de reconstrucción de múltiples muestras de rayos. El proceso de optimización lleva mucho tiempo. Por lo tanto, para garantizar una convergencia efectiva, deben integrar información relevante de profundidad de varias fuentes, como cámaras RGB-D, estimadores densos de flujo óptico o estimadores de profundidad monoculares. Además, debido a que los perceptrones de múltiples capas (MLP) decodifican las características implícitas, generalmente se requiere especificar una región límite con precisión para normalizar el muestreo de rayos para obtener los mejores resultados. Esto limita el potencial del sistema para escalar. Estas restricciones sugieren que uno de los objetivos principales de la exploración en tiempo real de SLAM y las capacidades de mapeo en un área desconocida utilizando plataformas portátiles no se puede lograr.
En esta publicación, el equipo de investigación de la Universidad de Ciencia y Tecnología de Hong Kong y la Universidad Sun Yat-sen presentan Photo-SLAM. Este nuevo marco realiza un mapeo fotorrealista en línea y una localización exacta al tiempo que aborda la escalabilidad y las limitaciones de recursos informáticos de los enfoques actuales. El equipo de investigación realiza un seguimiento de un mapa de hiperprimitivas de nubes de puntos que posee rotación, escala, densidad, coeficientes armónicos esféricos (SH) y características ORB. Al retropropagar la pérdida entre las imágenes originales y renderizadas, el mapa de hiperprimitivas permite que el sistema aprenda el mapeo correspondiente y optimice el seguimiento utilizando un solucionador de grafo de factores. En lugar de utilizar muestreo de rayos, se utiliza una técnica de salpicadura de gaussianas en 3D para producir las imágenes. Si bien la introducción de un renderizador de salpicadura de gaussianas en 3D puede reducir el costo de la reconstrucción de la vista, no puede producir renderizado de alta fidelidad para el mapeo incremental en línea, especialmente cuando la situación es monocromática. Además, el equipo de estudio sugiere una técnica de densificación basada en geometría y un método de aprendizaje basado en pirámides gaussianas (GP) para lograr un mapeo de alta calidad sin depender de información de profundidad densa.
- El Enfoque Principiado para las Etapas Tempranas de Clasificación
- Protección de datos fundamentales para la aceleración de LLM empresarial con Protopia AI
- Permite un entrenamiento más rápido con la biblioteca de paralelismo de datos de Amazon SageMaker
Es crucial destacar que el aprendizaje de GP facilita la adquisición gradual de características multinivel, lo que mejora significativamente el rendimiento de mapeo del sistema. El equipo de estudio utilizó una variedad de conjuntos de datos tomados por cámaras RGB-D, estéreo y monoculares en sus largos experimentos para evaluar la eficacia de su método sugerido. Los resultados de este experimento muestran claramente que Photo-SLAM logra un rendimiento de vanguardia en términos de velocidad de renderizado, calidad de mapeo fotorrealista y eficiencia de localización. Además, la operación en tiempo real del sistema Photo-SLAM en dispositivos integrados demuestra su potencial para aplicaciones de robótica útiles. Las figuras 1 y 2 muestran una descripción esquemática de Photo-SLAM en acción.
Los logros principales de este trabajo son los siguientes:
• El equipo de investigación creó el primer sistema de mapeo fotorrealista basado en un mapa de hiperprimitivas y localización simultánea. El nuevo marco de trabajo funciona con cámaras monoculares, estéreo y RGB-D tanto en interiores como en exteriores.
• El equipo de investigación sugirió utilizar el aprendizaje de la Pirámide Gaussiana, lo cual permite que el modelo aprenda características de varios niveles de manera efectiva y rápida, dando como resultado un mapeo de alta fidelidad. El sistema puede funcionar a tiempo real incluso en sistemas integrados, logrando un rendimiento de última generación gracias a su implementación completa en C++ y CUDA. El código estará disponible públicamente.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Ciberseguridad protege la alimentación y la agricultura
- Utilizando LLMs para codificar nuevas tareas para los robots
- Enfoque de un Arquitecto Ejecutivo de FinOps Cómo la Inteligencia Artificial y la Automatización Simplifican la Gestión de Datos
- ¿Qué están diciendo los despidos tecnológicos sobre la industria de la Inteligencia Artificial?
- Peter Wang, CEO y cofundador de Anaconda – Serie de entrevistas
- Data Visuals Gone Bad Evitando los Comunes Errores de Inicio en GPT-4
- IA y el futuro del trabajo Recap