Investigadores de la Universidad Nacional de Seúl presentan LucidDreamer un enfoque revolucionario de IA para la generación de escenas en 3D sin restricciones de dominio en realidad virtual utilizando modelado basado en difusión.
Investigadores de la Universidad Nacional de Seúl presentan LucidDreamer un revolucionario enfoque de IA para generar escenas en 3D de manera sin restricciones de dominio en realidad virtual mediante modelado basado en difusión.
El desarrollo de plataformas comerciales de realidad mixta y el rápido avance de la tecnología de gráficos 3D han convertido la creación de escenas tridimensionales de alta calidad en uno de los principales desafíos en la visión por computadora. Esto requiere la capacidad de convertir cualquier texto de entrada, imágenes RGB y RGBD, por ejemplo, en una variedad de escenarios tridimensionales realistas y variados. Aunque se han realizado intentos de construir objetos y escenarios tridimensionales directamente utilizando el modelo de difusión en voxel, nube de puntos y representación neural implícita, los resultados han mostrado una diversidad y calidad limitadas debido a las restricciones en los datos de entrenamiento basados en escaneos tridimensionales. Utilizar un modelo de difusión pre-entrenado para generar imágenes, como Stable Diffusion, es un enfoque para abordar el problema. Conocimientos basados en datos adquiridos de un gran conjunto de entrenamiento, dicho modelo produce imágenes creíbles pero no garantiza la consistencia de múltiples vistas entre las imágenes que genera.
El equipo de investigación de la Universidad Nacional de Seúl presenta en este artículo un proceso llamado LucidDreamer que utiliza el modelado gausiano tridimensional y la difusión estable para producir una variedad de escenarios tridimensionales de alta calidad a partir de varios tipos de entradas, incluyendo texto, RGB y RGBD. Los pasos de Sueño y Alineación se repiten alternativamente para crear una única gran nube de puntos utilizando el proceso de LucidDreamer. La imagen original y el mapa de profundidad correspondiente crean una nube de puntos inicial antes de comenzar los dos procesos. Crear imágenes geométricamente consistentes y proyectarlas en el espacio tridimensional son ambos aspectos de la experiencia de sueño. Antes de proyectar una región visible de la nube de puntos en las nuevas coordenadas de la cámara sobre el plano de la nueva cámara, el equipo de investigación mueve la cámara a lo largo de una trayectoria de cámara predefinida. Posteriormente, la imagen proyectada se envía a la red de inpainting basada en Stable Diffusion, que utiliza la imagen para crear la idea completa. Elevando la imagen inpainted y el mapa de profundidad predicho al espacio tridimensional, se crea una nueva colección de puntos tridimensionales. A continuación, mediante un desplazamiento suave de la ubicación de los nuevos puntos en el espacio tridimensional, la técnica de alineación sugerida los une suavemente a la nube de puntos actual. El equipo de estudio utiliza la enorme nube de puntos resultante de realizar los procedimientos mencionados un número suficiente de veces como los puntos SfM iniciales para optimizar los golpes gaussianos.
En comparación con representaciones anteriores, la representación continua de golpes gaussianos tridimensionales elimina las brechas causadas por la diferencia de profundidad en la nube de puntos, lo que nos permite mostrar escenarios tridimensionales más fotorrealistas. La Figura 1 muestra un resultado de generación 3D junto con la sencilla técnica de LucidDreamer. En comparación con los modelos actuales, LucidDreamer muestra resultados notablemente más realistas y asombrosos. Se observan mejores efectos visuales en todos los conjuntos de datos cuando el equipo de estudio compara las escenas 3D creadas condicionadas con una imagen de ScanNet, NYUDepth y Stable Diffusion.
- Explora las relaciones semánticas en textos de corpora con modelos de embedding
- Técnicas de muestreo y comparación prácticas, en Python
- Guía completa para el almacenamiento en caché en Python
Su modelo puede crear escenarios 3D en varios géneros, incluyendo realista, anime, Lego y al aire libre/interior. Su concepto admite muchos dominios y permite el uso simultáneo de varias condiciones de entrada. Por ejemplo, crea una escena 3D basada en el texto y agrega la imagen cuando condiciona el texto y la imagen juntos. Esto elimina las dificultades para producir la escena deseada únicamente a partir del texto y elimina la necesidad de producir muestras de manera extensa. Además, su método permite la modificación de la condición de entrada durante la creación del espacio tridimensional. Estas características estimulan la creatividad al proporcionar la oportunidad de construir una variedad de entornos 3D.
Han hecho las siguientes contribuciones para resumir:
• El equipo de investigación presenta LucidDreamer, una herramienta de producción de escenas en 3D de alta calidad y sin dominio específico que utiliza una representación 3D explícita, estimación de profundidad y difusión estable para mejorar la generalización de dominio en la síntesis de escenas en 3D.
• Su enfoque Dreaming produce nubes de puntos como pautas geométricas para cada producción de imágenes, generando imágenes de múltiples vistas a partir de la Difusión Estable. Las fotos producidas se integran hábilmente utilizando su técnica de alineación para crear una escena en 3D cohesiva.
• Su metodología permite a los usuarios generar paisajes en 3D de varias formas mediante el apoyo de múltiples tipos de entrada (texto, RGB y RGBD), permitiendo el uso simultáneo de múltiples entradas y el cambio de entradas durante el proceso de generación.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Esta investigación de IA presenta MeshGPT Un enfoque novedoso para la generación de formas que produce mallas directamente en forma de triángulos
- Evaluar modelos de lenguaje grandes en cuanto a calidad y responsabilidad
- Construye fácilmente una búsqueda de imágenes semántica utilizando Amazon Titan
- Minimiza la latencia de inferencia en tiempo real utilizando las estrategias de enrutamiento de Amazon SageMaker
- Empaqueta e implementa fácilmente modelos de ML clásicos y LLMs con Amazon SageMaker, parte 2 Experiencias interactivas para usuarios en SageMaker Studio
- Llega ‘Call of Duty’ a GeForce NOW
- La IA detecta emisiones de metano desde el espacio