Esta investigación de IA presenta Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

La revolucionaria investigación de IA con Photo-SLAM Elevando el mapeo fotorealista en tiempo real en dispositivos portátiles

En visión por computadora y robótica, la localización y mapeo simultáneos (SLAM, por sus siglas en inglés) con cámaras es un tema clave que tiene como objetivo permitir que los sistemas autónomos naveguen y comprendan su entorno. El mapeo geométrico es el énfasis principal de los sistemas SLAM tradicionales, que producen representaciones precisas pero estéticamente básicas del entorno. Sin embargo, los avances recientes en renderizado neuronal han demostrado que es posible incorporar la reconstrucción de imágenes fotorrealistas en el proceso de SLAM, lo que podría mejorar las habilidades de percepción de los sistemas robóticos.

Los enfoques existentes dependen significativamente de representaciones implícitas, lo que los hace computacionalmente exigentes e inadecuados para su implementación en dispositivos con recursos limitados, a pesar de que la fusión de renderizado neuronal con SLAM ha producido resultados prometedores. Por ejemplo, ESLAM utiliza componentes compactos tensoriales a múltiples escalas, mientras que Nice-SLAM utiliza una rejilla jerárquica para almacenar características aprendibles que reflejan el entorno. Posteriormente, colaboran para estimar las posiciones de la cámara y maximizar las características mediante la reducción de la pérdida de reconstrucción de múltiples muestras de rayos. El proceso de optimización lleva mucho tiempo. Por lo tanto, para garantizar una convergencia efectiva, deben integrar información relevante de profundidad de varias fuentes, como cámaras RGB-D, estimadores densos de flujo óptico o estimadores de profundidad monoculares. Además, debido a que los perceptrones de múltiples capas (MLP) decodifican las características implícitas, generalmente se requiere especificar una región límite con precisión para normalizar el muestreo de rayos para obtener los mejores resultados. Esto limita el potencial del sistema para escalar. Estas restricciones sugieren que uno de los objetivos principales de la exploración en tiempo real de SLAM y las capacidades de mapeo en un área desconocida utilizando plataformas portátiles no se puede lograr.

En esta publicación, el equipo de investigación de la Universidad de Ciencia y Tecnología de Hong Kong y la Universidad Sun Yat-sen presentan Photo-SLAM. Este nuevo marco realiza un mapeo fotorrealista en línea y una localización exacta al tiempo que aborda la escalabilidad y las limitaciones de recursos informáticos de los enfoques actuales. El equipo de investigación realiza un seguimiento de un mapa de hiperprimitivas de nubes de puntos que posee rotación, escala, densidad, coeficientes armónicos esféricos (SH) y características ORB. Al retropropagar la pérdida entre las imágenes originales y renderizadas, el mapa de hiperprimitivas permite que el sistema aprenda el mapeo correspondiente y optimice el seguimiento utilizando un solucionador de grafo de factores. En lugar de utilizar muestreo de rayos, se utiliza una técnica de salpicadura de gaussianas en 3D para producir las imágenes. Si bien la introducción de un renderizador de salpicadura de gaussianas en 3D puede reducir el costo de la reconstrucción de la vista, no puede producir renderizado de alta fidelidad para el mapeo incremental en línea, especialmente cuando la situación es monocromática. Además, el equipo de estudio sugiere una técnica de densificación basada en geometría y un método de aprendizaje basado en pirámides gaussianas (GP) para lograr un mapeo de alta calidad sin depender de información de profundidad densa.

Figura 1: Photo-SLAM es un marco revolucionario en tiempo real que admite cámaras RGB-D, estéreo y monoculares para localización simultánea y mapeo fotorrealista. Con una velocidad de renderizado de hasta 1000 fotogramas por segundo, puede reconstruir vistas de escenas de alta fidelidad.

Es crucial destacar que el aprendizaje de GP facilita la adquisición gradual de características multinivel, lo que mejora significativamente el rendimiento de mapeo del sistema. El equipo de estudio utilizó una variedad de conjuntos de datos tomados por cámaras RGB-D, estéreo y monoculares en sus largos experimentos para evaluar la eficacia de su método sugerido. Los resultados de este experimento muestran claramente que Photo-SLAM logra un rendimiento de vanguardia en términos de velocidad de renderizado, calidad de mapeo fotorrealista y eficiencia de localización. Además, la operación en tiempo real del sistema Photo-SLAM en dispositivos integrados demuestra su potencial para aplicaciones de robótica útiles. Las figuras 1 y 2 muestran una descripción esquemática de Photo-SLAM en acción.

Figura 2: muestra los cuatro componentes clave de Photo-SLAM, que mantiene un mapa con elementos de hiperprimitivas y consta de componentes de localización, mapeo de geometría explícita, mapeo fotorrealista implícito y cierre de bucle.

Los logros principales de este trabajo son los siguientes:

• El equipo de investigación creó el primer sistema de mapeo fotorrealista basado en un mapa de hiperprimitivas y localización simultánea. El nuevo marco de trabajo funciona con cámaras monoculares, estéreo y RGB-D tanto en interiores como en exteriores.

• El equipo de investigación sugirió utilizar el aprendizaje de la Pirámide Gaussiana, lo cual permite que el modelo aprenda características de varios niveles de manera efectiva y rápida, dando como resultado un mapeo de alta fidelidad. El sistema puede funcionar a tiempo real incluso en sistemas integrados, logrando un rendimiento de última generación gracias a su implementación completa en C++ y CUDA. El código estará disponible públicamente.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Visión del PM Modi sobre la regulación de la IA en India Cumbre B20 2023

A medida que el B20 Summit India 2023 llegaba a su fin en Delhi, las palabras del primer ministro Narendra Modi conti...

Inteligencia Artificial

IA en movimiento

Si 2023 fue el año de los LLM (modelos de lenguaje grandes), entonces 2024 será el año de los LMM (modelos multimodal...

Inteligencia Artificial

Promocionar canalizaciones en una configuración multiambiente utilizando Amazon SageMaker Model Registry, HashiCorp Terraform, GitHub y Jenkins CI/CD

La creación de una plataforma de operaciones de machine learning (MLOps) en el ámbito en constante evolución de la in...

Investigación

Entrenando máquinas para aprender más como lo hacen los humanos

Los investigadores identifican una propiedad que ayuda a los modelos de visión por computadora a aprender a represent...

Inteligencia Artificial

Web LLM Trae los Chatbots de LLM al Navegador.

¿No sería genial si pudieras ejecutar LLMs y chatbots de LLM de forma nativa en tu navegador? Aprendamos más sobre el...

Inteligencia Artificial

Este documento de IA revela los secretos para optimizar los modelos de lenguaje grandes equilibrar las recompensas y prevenir la sobreoptimización

Un equipo de investigadores de UC Berkeley, UCL, CMU y Google Deepmind aborda el desafío de optimizar grandes modelos...