Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista que es capaz de generar un conjunto de imágenes multi-vista de un objeto/escena a partir de cualquier texto dado.
Investigadores de ByteDance y UCSD proponen un modelo de difusión multi-vista para generar imágenes de un objeto/escena a partir de texto.
A pesar de ser una etapa crucial en la cadena de producción de la industria contemporánea de los videojuegos y los medios de comunicación, la creación de contenido en 3D lleva mucho tiempo y requiere diseñadores expertos que dedican horas, e incluso días, de esfuerzo para producir un solo objeto en 3D. Por lo tanto, un sistema que permita a los usuarios no profesionales crear material en 3D de manera fácil es muy valioso. Existen tres categorías de técnicas de creación de objetos en 3D: generación basada en plantillas, modelos generativos en 3D y técnicas de elevación en 2D. Tanto los generadores basados en plantillas como los modelos generativos en 3D pueden tener dificultades para generalizar la producción de objetos arbitrarios debido al número limitado de modelos en 3D accesibles y a la complejidad significativa de los datos. El material que crean suele estar limitado a algunas categorías, la mayoría de las cuales son objetos comunes con topologías sencillas y texturas del mundo exterior.
Sin embargo, en el ámbito empresarial, los activos en 3D populares a menudo combinan estructuras y estilos intrincados, creativos e incluso poco realistas. Según una investigación reciente sobre técnicas de elevación en 2D, se pueden utilizar modelos generativos en 2D pre-entrenados para la generación en 3D. Las representaciones comunes incluyen los sistemas Dreamfusion y Magic3D, que utilizan modelos de difusión en 2D como supervisión para mejorar una representación en 3D, como NeRF, utilizando muestreo de destilación de puntuación (SDS). Estos modelos en 2D, desarrollados utilizando conjuntos de datos de imágenes en 2D a gran escala, tienen una excelente capacidad de generalización y pueden generar situaciones hipotéticas y desconocidas, cuyos detalles pueden ser definidos mediante texto de entrada, lo que los convierte en herramientas eficaces para producir activos estéticos en 3D.
Sin embargo, estos modelos solo pueden ofrecer supervisión de una sola vista y los activos generados se ven fácilmente afectados por el problema de la consistencia de múltiples vistas, ya que solo tienen conocimiento en 2D. Debido a esto, la generación es muy inestable y los productos suelen tener artefactos graves. Existen problemas con los métodos de elevación en 2D ya que la destilación de puntuación es difícil sin un conocimiento exhaustivo de múltiples vistas o una comprensión en 3D. Estos problemas incluyen: (1) el problema Janus con múltiples caras, donde el sistema recrea regularmente contenido representado por la indicación de texto; (2) el sangrado de contenido entre puntos de vista distintos. Se muestran ejemplos en la Figura 1. Hay varias posibles causas para el problema multifacético. Por ejemplo, algunos objetos, como las cuchillas, pueden ser casi indetectables desde ángulos particulares.
- Desarrollar XR con Oracle, Ep. 6 Resumidor + Generador de IA
- Limpieza de datos con Pandas
- ¿Cómo convertirse en un analista de investigación? Descripción, habilidades y salario
Sin embargo, desde otras perspectivas, aspectos importantes de un personaje o animal pueden estar oscurecidos u ocultos. Un modelo de difusión en 2D solo puede evaluar estas cosas desde algunas perspectivas posibles, al igual que los humanos, lo que provoca que proporcione material redundante e inconsistente. Investigadores de ByteDance y UCSD sugieren modelos de difusión en múltiples vistas como solución a estos problemas, que producen simultáneamente una colección de imágenes en múltiples vistas que son coherentes entre sí. En su mayoría, mantienen el diseño arquitectónico de la difusión de imágenes en 2D para la generación de múltiples imágenes. Esto nos permite heredar la capacidad de generalización de los modelos de difusión en 2D previamente aprendidos para el aprendizaje por transferencia. Producen una colección de imágenes en múltiples vistas a partir de un conjunto de datos en 3D reales, llamado obverse, para garantizar la consistencia en múltiples vistas de su modelo.
Descubren que el modelo puede alcanzar una alta consistencia y generalización al entrenarlo simultáneamente con fotos reales e imágenes en múltiples vistas. También utilizan destilación de puntuación en múltiples vistas para aplicar estos modelos a la creación en 3D. En comparación con los modelos de difusión en 2D de una sola vista, la supervisión en múltiples vistas de su modelo resulta ser mucho más estable. También pueden seguir produciendo contenidos en 3D hipotéticos y ocultos utilizando modelos de difusión en 2D puros. Utilizan su modelo de difusión en múltiples vistas, que adaptaron de DreamBooth y DreamBooth3D, para extraer datos de identificación de un conjunto de fotografías suministradas, y muestra una fuerte consistencia en múltiples vistas después de un ajuste fino con pocas muestras. Su modelo, MVDream, construye eficazmente modelos en 3D Nerf sin el problema Janus cuando se incluye en el proceso de creación en 3D. Iguala o supera la diversidad encontrada en otras técnicas de vanguardia.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Este artículo de IA explica cómo los lenguajes de programación pueden potenciarse entre sí a través de la sintonización de instrucciones.
- ¿Qué es la Redundancia de Datos? Beneficios, Desventajas y Consejos
- 6 Errores de Pandas que Silenciosamente Revelan que Eres un Novato
- Meta AI lanza Nougat un modelo de transformador visual que realiza OCR para procesar documentos científicos en un lenguaje de marcado.
- El CEO de NVIDIA se reúne con el Primer Ministro de India, Narendra Modi
- Navegando la IA Específica de la Industria De Héroes Transitorios a Soluciones a Largo Plazo
- Explained Meta-Heurísticas Optimización de Colonia de Hormigas