Completado de nubes de puntos con modelos de difusión preentrenados de texto a imagen

Cloud point completion with pre-trained text-to-image diffusion models

¿Alguna vez has oído el término nube de puntos? Es una representación fundamental de datos en 3D, que consiste en puntos en un sistema de coordenadas tridimensional que describe la geometría y atributos espaciales de objetos o entornos. Se utilizan ampliamente en visión por computadora, realidad virtual y conducción autónoma porque proporcionan una representación detallada y completa de objetos del mundo real.

Las nubes de puntos se adquieren mediante sensores de profundidad, como escáneres LiDAR o cámaras de profundidad. Los escáneres LiDAR emiten pulsos láser y miden el tiempo que tarda el pulso en rebotar después de golpear un objeto. Las cámaras de profundidad utilizan técnicas de luz estructurada o tiempo de vuelo para estimar la profundidad de cada píxel en una imagen.

Aunque las nubes de puntos proporcionan información valiosa sobre el mundo en 3D, a menudo sufren de imperfecciones e incompletitud. Factores como las obstrucciones, las limitaciones del sensor y el ruido pueden dar lugar a puntos de datos faltantes o ruidosos, lo que dificulta obtener una representación completa y precisa de la escena u objetos capturados. Esta limitación obstaculiza la utilización efectiva de las nubes de puntos para diversas aplicaciones.

Para superar estas limitaciones y lograr una comprensión integral del mundo tridimensional, los investigadores han estado explorando técnicas de completado de nubes de puntos.

Los avances recientes en el aprendizaje profundo y los modelos generativos han llevado a un progreso significativo en el completado de nubes de puntos. Al entrenar modelos en conjuntos de datos a gran escala de nubes de puntos completas, estos enfoques pueden aprender a inferir la geometría faltante basada en información contextual y patrones observados en los datos de entrenamiento. Han demostrado resultados impresionantes al completar formas de objetos complejas y detalladas, incluso en presencia de datos de entrada parciales o ruidosos.

Sin embargo, estos métodos tienen dificultades para completar nubes de puntos que no pertenecen a los objetos vistos en el conjunto de entrenamiento. Vamos a conocer a SDS-Complete, que aborda este problema utilizando modelos de difusión.

SDS-Complete utiliza modelos de difusión para completar nubes de puntos. Fuente: https://arxiv.org/pdf/2306.10533.pdf

SDS-Complete aprovecha un modelo de difusión de texto a imagen pre-entrenado para guiar el completado de partes faltantes en las nubes de puntos. Los enfoques tradicionales para el completado de nubes de puntos dependen en gran medida de conjuntos de datos a gran escala con una gama limitada de clases de formas. Sin embargo, los escenarios del mundo real requieren el completado de diversas clases de objetos, lo que plantea un desafío significativo en el desarrollo de modelos que puedan manejar tal variedad.

La idea clave detrás de SDS-Complete es aprovechar el conocimiento previo contenido en los modelos de difusión de texto a imagen pre-entrenados. Estos modelos han sido entrenados en muchos objetos diversos, lo que los convierte en un recurso valioso para completar partes faltantes. Al combinar la información previa del modelo de difusión con la nube de puntos parcial observada, SDS-Complete genera formas 3D precisas y realistas que reflejan fielmente las observaciones parciales.

Descripción general de los componentes de SDS-Complete. Fuente: https://arxiv.org/pdf/2306.10533.pdf

Para lograr esta combinación, SDS-Complete utiliza la pérdida SDS y una representación de superficie de Función de Distancia Firmada (SDF). La pérdida garantiza la consistencia con los puntos de entrada, mientras que la representación SDF permite preservar el contenido 3D existente capturado por diferentes sensores de profundidad. El método tiene en cuenta las restricciones de entrada de texto y nubes de puntos, lo que permite el completado de superficies de objetos guiado tanto por información textual como por datos observados.

su página de Github. También se pueden ver más demos en su página de proyecto.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

El problema de comprensión y generación de videos ha sido abordado por investigadores del Laboratorio de IA de Tencen...

Investigación

Un sistema robótico de cuatro patas para jugar al fútbol en diversos terrenos.

DribbleBot puede maniobrar un balón de fútbol en terrenos como arena, grava, barro y nieve, utilizando el aprendizaje...

Inteligencia Artificial

Optimizando los costos computacionales con AutoMix Un enfoque estratégico de IA para aprovechar modelos de lenguaje grandes desde la nube

AutoMix es un enfoque innovador que optimiza la asignación de consultas a modelos de lenguaje de mayor tamaño (LLM) e...

Aprendizaje Automático

Google AI presenta Imagen Editor y EditBench para mejorar y evaluar el rellenado de imágenes guiado por texto.

Ha habido un reciente aumento en la curiosidad sobre los convertidores de texto a imagen. Estos modelos generativos s...

Inteligencia Artificial

Aprendizaje Automático de Grafos @ ICML 2023

Magníficas playas y paisajes tropicales de Hawái 🌴 no impidieron que valientes científicos asistieran a la Conferenci...