Conoce a DORSal Un modelo de difusión estructurada en 3D para la generación y edición a nivel de objeto de escenas en 3D.

Meet DORSal, a 3D structured diffusion model for object-level generation and editing of 3D scenes.

La Inteligencia Artificial está evolucionando con la introducción de la IA Generativa y los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés). Modelos conocidos como GPT, BERT, PaLM, entre otros, son algunas grandes incorporaciones a la larga lista de LLMs que están transformando la forma en que los humanos y las computadoras interactúan. En la generación de imágenes, los modelos de difusión han ganado una atención significativa por parte de los investigadores, ya que estos modelos capturan la compleja distribución de probabilidad de un conjunto de datos de imágenes y generan nuevas muestras que se asemejan a los datos de entrenamiento. La comprensión de escenas en 3D también está evolucionando, lo que permite el desarrollo de redes neuronales sin geometría que pueden ser entrenadas en un gran conjunto de datos de escenas para aprender representaciones de escenas. Estas redes generalizan bien a escenas y objetos no vistos previamente, generan vistas a partir de una sola o unas pocas imágenes de entrada y solo necesitan unas pocas observaciones por escena para el entrenamiento.

Mediante la combinación de las capacidades de los modelos de difusión y los modelos de aprendizaje de representaciones de escenas en 3D, un equipo de investigadores de la Universidad de California en Berkeley, Google Research y Google DeepMind ha presentado DORSal (Diffusion for Object-centric Representations of Scenes et al.), que es un enfoque para la generación de nuevas perspectivas en escenas tridimensionales mediante la combinación de representaciones de objetos con decodificadores de difusión. DORSal no tiene geometría, ya que aprende la estructura de la escena en 3D puramente a partir de datos sin requerir ninguna representación volumétrica costosa.

Con el fin de crear escenas en 3D, DORSal utiliza una arquitectura de difusión de video que fue creada inicialmente para fines de síntesis de imágenes. El concepto principal consiste en basarse en representaciones centradas en objetos de las escenas para limitar el modelo de difusión. Estas representaciones capturan detalles cruciales sobre los objetos de la escena y sus características. DORSal facilita la síntesis de perspectivas innovadoras de alta fidelidad de escenas en 3D al configurar el modelo de difusión en estas representaciones centradas en objetos. También mantiene la capacidad de edición de escenas a nivel de objeto, lo que permite a los usuarios cambiar y alterar elementos específicos de la escena.

Las principales contribuciones compartidas por el equipo son las siguientes:

  1. DORSal, un enfoque para la síntesis de nuevas vistas en 3D, utiliza las fortalezas de los modelos de difusión y las representaciones de escenas centradas en objetos para mejorar la calidad de las vistas renderizadas.
  1. DORSal supera a los métodos anteriores de la literatura sobre comprensión de escenas en 3D y es capaz de generar vistas significativamente más precisas, con una mejora de 5x-10x en la Distancia de Inception de Fréchet (FID, por sus siglas en inglés).
  1. En comparación con trabajos anteriores sobre Modelos de Difusión en 3D, DORSal muestra un rendimiento superior en el manejo de escenas más complejas. Al evaluar datos del Mundo Real de Street View, DORSal tiene un rendimiento significativamente mejor en cuanto a calidad de renderización.
  1. DORSal es capaz de condicionar el modelo de difusión en una representación estructurada y basada en objetos de la escena. Mediante el uso de esta representación, DORSal aprende a componer escenas utilizando objetos individuales, lo que permite la edición básica de escenas a nivel de objeto durante la inferencia, lo que permite a los usuarios manipular y modificar objetos específicos dentro de la escena.

En conclusión, la efectividad de DORSal se puede observar en los experimentos realizados tanto en escenas sintéticas complejas de múltiples objetos como en conjuntos de datos de gran escala del mundo real, como Google Street View. Su capacidad para permitir el renderizado neural escalable de escenas en 3D con edición a nivel de objeto lo convierte en un enfoque prometedor para el futuro. Su mejora en la calidad de renderización muestra un potencial para avanzar en la comprensión de escenas en 3D.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Google y del MIT presentan StableRep Revolucionando el entrenamiento de IA con imágenes sintéticas para un aprendizaje automático mejorado

Los investigadores han explorado el potencial de utilizar imágenes sintéticas generadas por modelos de texto a imagen...

Inteligencia Artificial

¿Cómo pueden ser útiles los desarrolladores de software con ChatGPT y Bard AI?

Anteriormente, los desarrolladores solían pasar mucho tiempo en el código o en la depuración, pero ahora, con la ayud...

Inteligencia Artificial

NVIDIA AI ahora disponible en el Oracle Cloud Marketplace

Entrenar modelos de IA generativa se ha vuelto más fácil. La plataforma de supercomputación AI de NVIDIA DGX Cloud y ...

Inteligencia Artificial

AI Prowess Utilizando Docker para la implementación y escalabilidad eficiente de aplicaciones de Aprendizaje Automático

Aprovechando el poder de Docker optimizando soluciones de implementación, garantizando escalabilidad y simplificando ...

Inteligencia Artificial

Principales bibliotecas de procesamiento de imágenes en Python

La visión por computadora es una rama de la inteligencia artificial (IA) que permite a las computadoras y sistemas ex...