Investigadores de UC San Diego y Meta AI presentan MonoNeRF una arquitectura de autoencoder que desentraña el video en movimiento de la cámara y mapa de profundidad a través del codificador de la cámara y el codificador de la profundidad.

Investigadores de UC San Diego y Meta AI presentan MonoNeRF, una arquitectura de autoencoder que desentraña el video en movimiento de la cámara y el mapa de profundidad.

Investigadores de UC San Diego y Meta AI han presentado MonoNeRF. Este enfoque novedoso permite el aprendizaje de Campos de Radiación Neural (NeRF) generalizables a partir de videos monoculares sin la dependencia de posiciones de cámara de verdad.

El trabajo destaca que NeRF ha mostrado resultados prometedores en diversas aplicaciones, incluyendo síntesis de vistas, reconstrucción de escenas y objetos, comprensión semántica y robótica. Sin embargo, la construcción de NeRF requiere anotaciones precisas de posiciones de cámara y está restringida a una sola escena, lo que resulta en un entrenamiento que consume mucho tiempo y una aplicabilidad limitada a videos sin restricciones a gran escala.

Ante estos desafíos, los esfuerzos de investigación recientes se han centrado en aprender NeRF generalizables mediante el entrenamiento en conjuntos de datos que comprenden múltiples escenas y posteriormente afinando en escenas individuales. Esta estrategia permite la reconstrucción y la síntesis de vistas con menos entradas de vistas, pero aún se necesita información sobre las posiciones de cámara durante el entrenamiento. Aunque algunos investigadores han intentado entrenar NeRF sin posiciones de cámara, estos enfoques siguen siendo específicos de escenas y tienen dificultades para generalizar entre diferentes escenas debido a la complejidad de las calibraciones auto-supervisadas.

MonoNeRF supera estas limitaciones mediante el entrenamiento en videos monoculares que capturan movimientos de cámara en escenas estáticas, eliminando eficazmente la necesidad de posiciones de cámara de verdad. Los investigadores hacen una observación crítica de que los videos del mundo real a menudo muestran cambios de cámara lentos en lugar de puntos de vista diversos, y aprovechan esta continuidad temporal dentro de su marco propuesto. El método implica un modelo basado en un autoencoder entrenado en un conjunto de datos de videos del mundo real a gran escala. Específicamente, un codificador de profundidad estima la profundidad monocular para cada fotograma, mientras que un codificador de posición de cámara determina la posición de cámara relativa entre fotogramas consecutivos. Estas representaciones desentrelazadas se utilizan luego para construir una representación NeRF para cada fotograma de entrada, que posteriormente se renderiza para decodificar otro fotograma de entrada en función de la posición de cámara estimada.

El modelo se entrena utilizando una pérdida de reconstrucción para garantizar la consistencia entre los fotogramas renderizados y los fotogramas de entrada. Sin embargo, depender únicamente de una pérdida de reconstrucción puede llevar a una solución trivial, ya que la profundidad monocular estimada, la posición de cámara y la representación NeRF podrían no estar en la misma escala. Los investigadores proponen un nuevo método de calibración de escala para abordar este desafío de alinear las tres representaciones durante el entrenamiento. Las principales ventajas de su marco propuesto son dos: elimina la necesidad de anotaciones de posición de cámara 3D y muestra una generalización efectiva en un conjunto de datos de video a gran escala, lo que resulta en una mejora en la transferibilidad.

En el momento de la prueba, las representaciones aprendidas se pueden aplicar a diversas tareas secundarias, como la estimación de la profundidad monocular a partir de una única imagen RGB, la estimación de la posición de cámara y la síntesis de vistas novedosas a partir de una imagen única. Los investigadores realizan experimentos principalmente en escenas interiores y demuestran la efectividad de su enfoque. Su método mejora significativamente la estimación de la profundidad auto-supervisada en el conjunto de pruebas de Scannet y muestra una generalización superior a NYU Depth V2. Además, MonoNeRF supera constantemente en rendimiento a enfoques anteriores utilizando el conjunto de datos RealEstate10K en la estimación de la posición de cámara. Para la síntesis de vistas novedosas, el enfoque MonoNeRF propuesto supera a los métodos que aprenden sin información de posición de cámara de verdad y supera los enfoques recientes que dependen de cámaras de verdad.

En conclusión, los investigadores presentan MonoNeRF como una solución novedosa y práctica para aprender NeRF generalizables a partir de videos monoculares sin necesidad de una posición de cámara de verdad. Su método aborda las limitaciones de enfoques anteriores y demuestra un rendimiento superior en diversas tareas relacionadas con la estimación de profundidad, la estimación de la posición de cámara y la síntesis de vistas novedosas, especialmente en conjuntos de datos a gran escala.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Stability AI presenta SDXL Turbo un modelo de generación de texto a imagen en tiempo real

Stability AI presenta SDXL Turbo, que representa un avance notable en la síntesis de texto a imagen, impulsado por un...

Inteligencia Artificial

Ajusta ChatGPT a tus necesidades con instrucciones personalizadas

OpenAI ha introducido recientemente instrucciones personalizadas para aprovechar al máximo ChatGPT.

Inteligencia Artificial

INDIAai y Meta se unen Abren camino para la innovación y colaboración en IA

En un desarrollo prometedor, INDIAai y Meta se han unido para establecer una poderosa colaboración en el ámbito de la...

Inteligencia Artificial

Crea e implementa aplicaciones de inferencia de ML desde cero utilizando Amazon SageMaker

A medida que el aprendizaje automático (ML) se vuelve más popular y es cada vez más adoptado, las aplicaciones de inf...

Inteligencia Artificial

Conoce GPT Crawler una herramienta de IA que puede rastrear un sitio para generar archivos de conocimiento y crear un GPT personalizado a partir de una o varias URL.

Qué maravilloso sería construir modelos únicos de GPT extrayendo conocimiento de páginas web. Conoce GPT Crawler: una...