Completado de nubes de puntos con modelos de difusión preentrenados de texto a imagen
Cloud point completion with pre-trained text-to-image diffusion models
¿Alguna vez has oído el término nube de puntos? Es una representación fundamental de datos en 3D, que consiste en puntos en un sistema de coordenadas tridimensional que describe la geometría y atributos espaciales de objetos o entornos. Se utilizan ampliamente en visión por computadora, realidad virtual y conducción autónoma porque proporcionan una representación detallada y completa de objetos del mundo real.
Las nubes de puntos se adquieren mediante sensores de profundidad, como escáneres LiDAR o cámaras de profundidad. Los escáneres LiDAR emiten pulsos láser y miden el tiempo que tarda el pulso en rebotar después de golpear un objeto. Las cámaras de profundidad utilizan técnicas de luz estructurada o tiempo de vuelo para estimar la profundidad de cada píxel en una imagen.
Aunque las nubes de puntos proporcionan información valiosa sobre el mundo en 3D, a menudo sufren de imperfecciones e incompletitud. Factores como las obstrucciones, las limitaciones del sensor y el ruido pueden dar lugar a puntos de datos faltantes o ruidosos, lo que dificulta obtener una representación completa y precisa de la escena u objetos capturados. Esta limitación obstaculiza la utilización efectiva de las nubes de puntos para diversas aplicaciones.
- Todo lo que necesitas saber sobre la Universidad LLM de Cohere
- OpenAI lanza Baby Llama – Un LLM para dispositivos de baja potencia!
- Textbooks son todo lo que necesitas Un enfoque revolucionario para la formación en IA
Para superar estas limitaciones y lograr una comprensión integral del mundo tridimensional, los investigadores han estado explorando técnicas de completado de nubes de puntos.
Los avances recientes en el aprendizaje profundo y los modelos generativos han llevado a un progreso significativo en el completado de nubes de puntos. Al entrenar modelos en conjuntos de datos a gran escala de nubes de puntos completas, estos enfoques pueden aprender a inferir la geometría faltante basada en información contextual y patrones observados en los datos de entrenamiento. Han demostrado resultados impresionantes al completar formas de objetos complejas y detalladas, incluso en presencia de datos de entrada parciales o ruidosos.
Sin embargo, estos métodos tienen dificultades para completar nubes de puntos que no pertenecen a los objetos vistos en el conjunto de entrenamiento. Vamos a conocer a SDS-Complete, que aborda este problema utilizando modelos de difusión.
SDS-Complete aprovecha un modelo de difusión de texto a imagen pre-entrenado para guiar el completado de partes faltantes en las nubes de puntos. Los enfoques tradicionales para el completado de nubes de puntos dependen en gran medida de conjuntos de datos a gran escala con una gama limitada de clases de formas. Sin embargo, los escenarios del mundo real requieren el completado de diversas clases de objetos, lo que plantea un desafío significativo en el desarrollo de modelos que puedan manejar tal variedad.
La idea clave detrás de SDS-Complete es aprovechar el conocimiento previo contenido en los modelos de difusión de texto a imagen pre-entrenados. Estos modelos han sido entrenados en muchos objetos diversos, lo que los convierte en un recurso valioso para completar partes faltantes. Al combinar la información previa del modelo de difusión con la nube de puntos parcial observada, SDS-Complete genera formas 3D precisas y realistas que reflejan fielmente las observaciones parciales.
Para lograr esta combinación, SDS-Complete utiliza la pérdida SDS y una representación de superficie de Función de Distancia Firmada (SDF). La pérdida garantiza la consistencia con los puntos de entrada, mientras que la representación SDF permite preservar el contenido 3D existente capturado por diferentes sensores de profundidad. El método tiene en cuenta las restricciones de entrada de texto y nubes de puntos, lo que permite el completado de superficies de objetos guiado tanto por información textual como por datos observados.
su página de Github. También se pueden ver más demos en su página de proyecto.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de UC San Diego y Meta AI presentan MonoNeRF una arquitectura de autoencoder que desentraña el video en movimiento de la cámara y mapa de profundidad a través del codificador de la cámara y el codificador de la profundidad.
- Investigadores de UC Berkeley proponen una novedosa técnica llamada Cadena de Retrospección (CoH) que puede permitir a los LLM aprender de cualquier forma de retroalimentación para mejorar el rendimiento del modelo.
- Este artículo de IA de Georgia Tech propone un método de inteligencia artificial para ayudar a identificar nuevos candidatos para posibles superconductores de manera más rápida y confiable’.
- La arquitectura Transformer de los modelos GPT
- Hackeando la función JSON_ARRAYAGG de MySQL para crear dimensiones dinámicas y de múltiples valores
- Genera ideas de imanes de atracción con ChatGPT
- Investigadores de UC Berkeley y Deepmind proponen SuccessVQA una reformulación de la detección de éxito que es compatible con VLM pre-entrenados como Flamingo.