Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista que es capaz de generar un conjunto de imágenes multi-vista de un objeto/escena a partir de cualquier texto dado.

Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista para generar imágenes de un objeto/escena a partir de texto.

A pesar de ser una etapa crucial en la cadena de producción de la industria contemporánea de los videojuegos y los medios de comunicación, la creación de contenido en 3D lleva mucho tiempo y requiere diseñadores expertos que dedican horas, e incluso días, de esfuerzo para producir un solo objeto en 3D. Por lo tanto, un sistema que permita a los usuarios no profesionales crear material en 3D de manera fácil es muy valioso. Existen tres categorías de técnicas de creación de objetos en 3D: generación basada en plantillas, modelos generativos en 3D y técnicas de elevación en 2D. Tanto los generadores basados en plantillas como los modelos generativos en 3D pueden tener dificultades para generalizar la producción de objetos arbitrarios debido al número limitado de modelos en 3D accesibles y a la complejidad significativa de los datos. El material que crean suele estar limitado a algunas categorías, la mayoría de las cuales son objetos comunes con topologías sencillas y texturas del mundo exterior.

Sin embargo, en el ámbito empresarial, los activos en 3D populares a menudo combinan estructuras y estilos intrincados, creativos e incluso poco realistas. Según una investigación reciente sobre técnicas de elevación en 2D, se pueden utilizar modelos generativos en 2D pre-entrenados para la generación en 3D. Las representaciones comunes incluyen los sistemas Dreamfusion y Magic3D, que utilizan modelos de difusión en 2D como supervisión para mejorar una representación en 3D, como NeRF, utilizando muestreo de destilación de puntuación (SDS). Estos modelos en 2D, desarrollados utilizando conjuntos de datos de imágenes en 2D a gran escala, tienen una excelente capacidad de generalización y pueden generar situaciones hipotéticas y desconocidas, cuyos detalles pueden ser definidos mediante texto de entrada, lo que los convierte en herramientas eficaces para producir activos estéticos en 3D.

Sin embargo, estos modelos solo pueden ofrecer supervisión de una sola vista y los activos generados se ven fácilmente afectados por el problema de la consistencia de múltiples vistas, ya que solo tienen conocimiento en 2D. Debido a esto, la generación es muy inestable y los productos suelen tener artefactos graves. Existen problemas con los métodos de elevación en 2D ya que la destilación de puntuación es difícil sin un conocimiento exhaustivo de múltiples vistas o una comprensión en 3D. Estos problemas incluyen: (1) el problema Janus con múltiples caras, donde el sistema recrea regularmente contenido representado por la indicación de texto; (2) el sangrado de contenido entre puntos de vista distintos. Se muestran ejemplos en la Figura 1. Hay varias posibles causas para el problema multifacético. Por ejemplo, algunos objetos, como las cuchillas, pueden ser casi indetectables desde ángulos particulares.

**Figura 1** ilustra enfoques típicos de elevación en 2D para problemas de consistencia de múltiples vistas en generación en 3D. A la izquierda, se puede ver “Un águila calva tallada en madera”, que tiene dos caras. A la derecha: “una imagen de una cámara réflex digital de un plato de pollo frito y gofres con jarabe de arce”, donde el pollo se transforma lentamente en un gofre.

Sin embargo, desde otras perspectivas, aspectos importantes de un personaje o animal pueden estar oscurecidos u ocultos. Un modelo de difusión en 2D solo puede evaluar estas cosas desde algunas perspectivas posibles, al igual que los humanos, lo que provoca que proporcione material redundante e inconsistente. Investigadores de ByteDance y UCSD sugieren modelos de difusión en múltiples vistas como solución a estos problemas, que producen simultáneamente una colección de imágenes en múltiples vistas que son coherentes entre sí. En su mayoría, mantienen el diseño arquitectónico de la difusión de imágenes en 2D para la generación de múltiples imágenes. Esto nos permite heredar la capacidad de generalización de los modelos de difusión en 2D previamente aprendidos para el aprendizaje por transferencia. Producen una colección de imágenes en múltiples vistas a partir de un conjunto de datos en 3D reales, llamado obverse, para garantizar la consistencia en múltiples vistas de su modelo.

Descubren que el modelo puede alcanzar una alta consistencia y generalización al entrenarlo simultáneamente con fotos reales e imágenes en múltiples vistas. También utilizan destilación de puntuación en múltiples vistas para aplicar estos modelos a la creación en 3D. En comparación con los modelos de difusión en 2D de una sola vista, la supervisión en múltiples vistas de su modelo resulta ser mucho más estable. También pueden seguir produciendo contenidos en 3D hipotéticos y ocultos utilizando modelos de difusión en 2D puros. Utilizan su modelo de difusión en múltiples vistas, que adaptaron de DreamBooth y DreamBooth3D, para extraer datos de identificación de un conjunto de fotografías suministradas, y muestra una fuerte consistencia en múltiples vistas después de un ajuste fino con pocas muestras. Su modelo, MVDream, construye eficazmente modelos en 3D Nerf sin el problema Janus cuando se incluye en el proceso de creación en 3D. Iguala o supera la diversidad encontrada en otras técnicas de vanguardia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista que es capaz de generar un conjunto de imágenes multi-vista de un objeto/escena a partir de cualquier texto dado.

Was this article helpful?

Desarrollar XR con Oracle, Ep. 6 Resumidor + Generador de IA

Procesamiento del Lenguaje Natural Más allá de BERT y GPT

Inteligencia Artificial

Transforma imágenes de moda en impresionantes videos fotorrealistas con el marco de IA DreamPose

PatchTST Un avance en la predicción de series temporales.

Cómo Patsnap utilizó la inferencia de GPT-2 en Amazon SageMaker con baja latencia y costo

Conoce Cursive Un Marco de Inteligencia Artificial Universal e Intuitivo para Interactuar con LLMs

Los programas piloto de IA buscan reducir el consumo de energía y las emisiones en el campus del MIT

Este artículo de IA presenta un modelo de aprendizaje profundo para clasificar las etapas de la degeneración macular relacionada con la edad utilizando escaneos OCT de retina del mundo real.