Investigadores de la Universidad Nacional de Seúl presentan LucidDreamer un enfoque revolucionario de IA para la generación de escenas en 3D sin restricciones de dominio en realidad virtual utilizando modelado basado en difusión.

Investigadores de la Universidad Nacional de Seúl presentan LucidDreamer un revolucionario enfoque de IA para generar escenas en 3D de manera sin restricciones de dominio en realidad virtual mediante modelado basado en difusión.

El desarrollo de plataformas comerciales de realidad mixta y el rápido avance de la tecnología de gráficos 3D han convertido la creación de escenas tridimensionales de alta calidad en uno de los principales desafíos en la visión por computadora. Esto requiere la capacidad de convertir cualquier texto de entrada, imágenes RGB y RGBD, por ejemplo, en una variedad de escenarios tridimensionales realistas y variados. Aunque se han realizado intentos de construir objetos y escenarios tridimensionales directamente utilizando el modelo de difusión en voxel, nube de puntos y representación neural implícita, los resultados han mostrado una diversidad y calidad limitadas debido a las restricciones en los datos de entrenamiento basados en escaneos tridimensionales. Utilizar un modelo de difusión pre-entrenado para generar imágenes, como Stable Diffusion, es un enfoque para abordar el problema. Conocimientos basados en datos adquiridos de un gran conjunto de entrenamiento, dicho modelo produce imágenes creíbles pero no garantiza la consistencia de múltiples vistas entre las imágenes que genera. 

El equipo de investigación de la Universidad Nacional de Seúl presenta en este artículo un proceso llamado LucidDreamer que utiliza el modelado gausiano tridimensional y la difusión estable para producir una variedad de escenarios tridimensionales de alta calidad a partir de varios tipos de entradas, incluyendo texto, RGB y RGBD. Los pasos de Sueño y Alineación se repiten alternativamente para crear una única gran nube de puntos utilizando el proceso de LucidDreamer. La imagen original y el mapa de profundidad correspondiente crean una nube de puntos inicial antes de comenzar los dos procesos. Crear imágenes geométricamente consistentes y proyectarlas en el espacio tridimensional son ambos aspectos de la experiencia de sueño. Antes de proyectar una región visible de la nube de puntos en las nuevas coordenadas de la cámara sobre el plano de la nueva cámara, el equipo de investigación mueve la cámara a lo largo de una trayectoria de cámara predefinida. Posteriormente, la imagen proyectada se envía a la red de inpainting basada en Stable Diffusion, que utiliza la imagen para crear la idea completa. Elevando la imagen inpainted y el mapa de profundidad predicho al espacio tridimensional, se crea una nueva colección de puntos tridimensionales. A continuación, mediante un desplazamiento suave de la ubicación de los nuevos puntos en el espacio tridimensional, la técnica de alineación sugerida los une suavemente a la nube de puntos actual. El equipo de estudio utiliza la enorme nube de puntos resultante de realizar los procedimientos mencionados un número suficiente de veces como los puntos SfM iniciales para optimizar los golpes gaussianos. 

En comparación con representaciones anteriores, la representación continua de golpes gaussianos tridimensionales elimina las brechas causadas por la diferencia de profundidad en la nube de puntos, lo que nos permite mostrar escenarios tridimensionales más fotorrealistas. La Figura 1 muestra un resultado de generación 3D junto con la sencilla técnica de LucidDreamer. En comparación con los modelos actuales, LucidDreamer muestra resultados notablemente más realistas y asombrosos. Se observan mejores efectos visuales en todos los conjuntos de datos cuando el equipo de estudio compara las escenas 3D creadas condicionadas con una imagen de ScanNet, NYUDepth y Stable Diffusion.

Figura 1: Los investigadores crean LucidDreamer, un marco básico para producir paisajes 3D de alta calidad y consistentes en múltiples vistas a partir de texto, RGB y entradas RGBD. Siguiendo la elevación de la imagen RGBD para producir la primera nube de puntos, LucidDreamer repite dos procesos para hacer crecer y preservar su modelo del mundo: alineación y sueño. Mediante la optimización de una representación de golpeo gausiano, se completa la escena 3D.

Su modelo puede crear escenarios 3D en varios géneros, incluyendo realista, anime, Lego y al aire libre/interior. Su concepto admite muchos dominios y permite el uso simultáneo de varias condiciones de entrada. Por ejemplo, crea una escena 3D basada en el texto y agrega la imagen cuando condiciona el texto y la imagen juntos. Esto elimina las dificultades para producir la escena deseada únicamente a partir del texto y elimina la necesidad de producir muestras de manera extensa. Además, su método permite la modificación de la condición de entrada durante la creación del espacio tridimensional. Estas características estimulan la creatividad al proporcionar la oportunidad de construir una variedad de entornos 3D. 

Han hecho las siguientes contribuciones para resumir:

• El equipo de investigación presenta LucidDreamer, una herramienta de producción de escenas en 3D de alta calidad y sin dominio específico que utiliza una representación 3D explícita, estimación de profundidad y difusión estable para mejorar la generalización de dominio en la síntesis de escenas en 3D.

• Su enfoque Dreaming produce nubes de puntos como pautas geométricas para cada producción de imágenes, generando imágenes de múltiples vistas a partir de la Difusión Estable. Las fotos producidas se integran hábilmente utilizando su técnica de alineación para crear una escena en 3D cohesiva.

• Su metodología permite a los usuarios generar paisajes en 3D de varias formas mediante el apoyo de múltiples tipos de entrada (texto, RGB y RGBD), permitiendo el uso simultáneo de múltiples entradas y el cambio de entradas durante el proceso de generación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La IA generativa imagina nuevas estructuras de proteínas

Investigadores del MIT desarrollan FrameDiff, una herramienta computacional que utiliza inteligencia artificial gener...

Inteligencia Artificial

Conciliando la Paradoja de la IA Generativa Caminos Divergentes de la Inteligencia Humana y Máquina en la Generación y Comprensión

De ChatGPT a GPT4 a DALL-E 2/3 a Midjourney, la última ola de IA generativa ha captado una atención sin precedentes e...

Inteligencia Artificial

Llama-2, GPT-4 o Claude-2; ¿Cuál es el mejor modelo de lenguaje de inteligencia artificial?

Los Modelos de Lenguaje Grandes (LLMs) han recibido mucha apreciación a nivel mundial y han ganado inmensa popularida...

Inteligencia Artificial

Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.

Los Modelos de Lenguaje Grande (LLMs) han utilizado con éxito el poder de los subcampos de Inteligencia Artificial (I...

Inteligencia Artificial

¿Cómo supera Bing Chat a ChatGPT en proporcionar conocimiento en tiempo real actualizado? Conoce la Generación con Recuperación Mejorada (RAG)

Con el desarrollo de los Modelos de Lenguaje Grande (LLMs) en los últimos tiempos, estos modelos han provocado un cam...