Zero123++ Un solo modelo base de difusión multivista consistente a partir de una sola imagen

Zero123++ Un modelo de difusión multivista consistente basado en una sola imagen

Los últimos años han presenciado un rápido avance en el rendimiento, eficiencia y capacidades generativas de los modelos generativos de IA emergentes que aprovechan conjuntos de datos extensos y prácticas de generación de difusión 2D. Hoy en día, los modelos de IA generativa son capaces de generar diferentes formas de contenido multimedia 2D, y hasta cierto punto, 3D, incluyendo texto, imágenes, videos, GIFs y más.

En este artículo, hablaremos sobre el marco Zero123++, un modelo de IA generativa condicionado por imágenes con el objetivo de generar imágenes consistentes en 3D de múltiples vistas utilizando una única imagen de entrada. Para maximizar la ventaja obtenida de los modelos generativos pre-entrenados anteriores, el marco Zero123++ implementa numerosos esquemas de entrenamiento y condicionamiento para minimizar la cantidad de esfuerzo necesario para afinar los modelos de imágenes de difusión predefinidos. Nos sumergiremos más a fondo en la arquitectura, el funcionamiento y los resultados del marco Zero123++, y analizaremos sus capacidades para generar imágenes consistentes de alta calidad de múltiples vistas a partir de una imagen individual. Así que empecemos.

Zero123 y Zero123++: Una Introducción

El marco Zero123++ es un modelo de IA generativa condicionado por imágenes que tiene como objetivo generar imágenes consistentes en 3D de múltiples vistas utilizando una única imagen de entrada. El marco Zero123++ es una continuación del marco Zero123 o Zero-1-a-3, que utiliza una técnica de síntesis de imágenes de nuevas vistas sin necesidad de entrenamiento previo para realizar conversiones de imágenes de una sola imagen a 3D de código abierto. Aunque el marco Zero123++ ofrece un rendimiento prometedor, las imágenes generadas por el marco presentan inconsistencias geométricas visibles, y esa es la principal razón por la que todavía existe una brecha entre las escenas en 3D y las imágenes de múltiples vistas.

El marco Zero-1-a-3 sirve como base para varios otros marcos, incluyendo SyncDreamer, One-2-3-45, Consistent123 y más, que añaden capas adicionales al marco Zero123 para obtener resultados más consistentes al generar imágenes en 3D. Otros marcos como ProlificDreamer, DreamFusion, DreamGaussian y más siguen un enfoque basado en la optimización para obtener imágenes en 3D destilando una imagen en 3D de varios modelos inconsistentes. Aunque estas técnicas son efectivas y generan imágenes en 3D satisfactorias, los resultados podrían mejorarse con la implementación de un modelo base de difusión capaz de generar imágenes de múltiples vistas de manera consistente. En consecuencia, el marco Zero123++ toma el enfoque Zero-1-a-3 y ajusta un nuevo modelo de difusión base de múltiples vistas a partir de Stable Diffusion.

En el enfoque Zero-1-a-3, cada nueva vista se genera de forma independiente, y este enfoque conlleva inconsistencias entre las vistas generadas, ya que los modelos de difusión tienen una naturaleza de muestreo. Para abordar este problema, el marco Zero123++ adopta un enfoque de disposición en mosaico, en el que el objeto se rodea con seis vistas en una única imagen, y se garantiza una modelización correcta de la distribución conjunta de las imágenes de múltiples vistas de un objeto.

Otro desafío importante al que se enfrentan los desarrolladores que trabajan en el marco Zero-1-a-3 es que no aprovecha al máximo las capacidades ofrecidas por Stable Diffusion, lo que finalmente conduce a la ineficiencia y a costos adicionales. Hay dos razones principales por las que el marco Zero-1-a-3 no puede maximizar las capacidades ofrecidas por Stable Diffusion:

  1. Cuando se entrena con condiciones de imágenes, el marco Zero-1-a-3 no incorpora de manera efectiva los mecanismos de condicionamiento locales o globales ofrecidos por Stable Diffusion.
  2. Durante el entrenamiento, el marco Zero-1-a-3 utiliza una resolución reducida, un enfoque en el que la resolución de salida se reduce por debajo de la resolución de entrenamiento, lo cual puede reducir la calidad de la generación de imágenes para los modelos de Stable Diffusion.

Para abordar estos problemas, el marco Zero123++ implementa una amplia gama de técnicas de condicionamiento que maximizan la utilización de los recursos ofrecidos por Stable Diffusion y mantienen la calidad de la generación de imágenes para los modelos de Stable Diffusion.

Mejorando el Condicionamiento y la Consistencia

En un intento de mejorar el condicionamiento de imágenes y la consistencia de las imágenes de múltiples vistas, el marco Zero123++ implementó diferentes técnicas, con el objetivo principal de reutilizar técnicas anteriores obtenidas del modelo preentrenado de Stable Diffusion.

Generación de Múltiples Vistas

La calidad indispensable para generar imágenes multivista consistentes radica en modelar correctamente la distribución conjunta de múltiples imágenes. En el marco Zero-1-to-3, se ignora la correlación entre imágenes multivista debido a que, para cada imagen, el marco modela la distribución marginal condicional de manera independiente y por separado. Sin embargo, en el marco Zero123++, los desarrolladores han optado por un enfoque de diseños de mosaico que colocan 6 imágenes en un solo marco/imagen para generar imágenes multivista consistentes, y el proceso se muestra en la siguiente imagen.

Además, se ha observado que las orientaciones de los objetos tienden a desambiguarse al entrenar el modelo en poses de cámara, y para evitar esta desambiguación, el marco Zero-1-to-3 se entrena en poses de cámara con ángulos de elevación y azimut relativo a la entrada. Para implementar este enfoque, es necesario conocer el ángulo de elevación de la vista de la entrada, que luego se utiliza para determinar la pose relativa entre las nuevas vistas de la entrada. En un intento por conocer este ángulo de elevación, a menudo los marcos agregan un módulo de estimación de elevación, y este enfoque a menudo conlleva errores adicionales en el flujo de trabajo.

Programa de Ruido

El programa lineal escalado, el programa de ruido original para Stable Diffusion se enfoca principalmente en detalles locales, pero como se puede ver en la siguiente imagen, tiene muy pocos pasos con relación señal a ruido baja.

Estos pasos de baja relación señal a ruido ocurren temprano durante la etapa de eliminación de ruido, una etapa crucial para determinar la estructura global de baja frecuencia. Reducir el número de pasos durante la etapa de eliminación de ruido, ya sea durante la interferencia o el entrenamiento, a menudo resulta en una mayor variación estructural. Aunque esta configuración es ideal para la generación de imágenes individuales, limita la capacidad del marco para garantizar la consistencia global entre diferentes vistas. Para superar este obstáculo, el marco Zero123++ ajusta finamente un modelo LoRA en el marco Stable Diffusion 2 v-prediction para realizar una tarea ficticia, y los resultados se muestran a continuación.

Con el programa de ruido lineal escalado, el modelo LoRA no sobreajusta, pero solo blanquea ligeramente la imagen. Por el contrario, cuando se trabaja con el programa de ruido lineal, el marco LoRA genera una imagen en blanco con éxito, independientemente del estímulo de entrada, lo que significa el impacto del programa de ruido en la capacidad del marco para adaptarse a nuevos requisitos globalmente.

Atención de Referencia Escalada para Condiciones Locales

La entrada de una sola vista o las imágenes de condicionamiento en el marco Zero-1-to-3 se concatenan con las entradas ruidosas en la dimensión de características para el condicionamiento de imágenes.

Esta concatenación conduce a una correspondencia espacial incorrecta píxel a píxel entre la imagen objetivo y la entrada. Para proporcionar una entrada de condicionamiento local adecuada, el marco Zero123++ utiliza una Atención de Referencia escalada, un enfoque en el que se ejecuta un modelo UNet de eliminación de ruido en una imagen de referencia adicional, seguido de la apéndice de matrices de valor y clave de atención propia de la imagen de referencia a las respectivas capas de atención cuando la entrada del modelo se está desruidizando, y se muestra en la siguiente figura.

El enfoque de Atención de Referencia es capaz de guiar al modelo de difusión para generar imágenes con texturas similares a la imagen de referencia y contenido semántico sin necesidad de ajuste fino. Con el ajuste fino, el enfoque de Atención de Referencia ofrece resultados superiores con la latencia escalada.

Acondicionamiento Global: FlexDiffuse

En el enfoque original de Stable Diffusion, los embeddings de texto son la única fuente de embeddings globales, y el enfoque emplea el marco CLIP como un codificador de texto para realizar exámenes cruzados entre los embeddings de texto y los latentes del modelo. En consecuencia, los desarrolladores pueden usar la alineación entre los espacios de texto y las imágenes CLIP resultantes para utilizarlas en el acondicionamiento global de imágenes.

El marco Zero123++ propone utilizar una variante entrenable del mecanismo de guía lineal para incorporar la condicionante global de la imagen al marco con un mínimo de ajuste fino necesario, y los resultados se demuestran en la siguiente imagen. Como se puede ver, sin la presencia de la condicionante global de la imagen, la calidad del contenido generado por el marco es satisfactoria para las regiones visibles que corresponden a la imagen de entrada. Sin embargo, la calidad de la imagen generada por el marco para las regiones no vistas experimenta un deterioro significativo que se debe principalmente a la incapacidad del modelo para inferir la semántica global del objeto.

Arquitectura del Modelo

El marco Zero123++ se entrena con el modelo de difusión estable 2v como base utilizando los enfoques y técnicas mencionados en el artículo. El marco Zero123++ se preentrena en el conjunto de datos Objaverse que se renderiza con iluminación HDRI aleatoria. Además, el marco adopta el enfoque de programación de entrenamiento en fases utilizado en el marco de Variaciones de Imagen de Difusión Estable en un intento de minimizar aún más la cantidad de ajuste fino requerido y preservar tanto como sea posible en la Difusión Estable previa.

El funcionamiento o la arquitectura del marco Zero123++ se puede dividir aún más en pasos o fases secuenciales. En la primera fase, el marco ajusta finamente las matrices KV de las capas de atención cruzada y las capas de autoatención de la Difusión Estable con AdamW como optimizador, 1000 pasos de calentamiento y un programa de aprendizaje de tasa de aprendizaje coseno que alcanza un máximo de 7×10-5. En la segunda fase, el marco emplea una tasa de aprendizaje constante altamente conservadora con 2000 conjuntos de calentamiento y utiliza el enfoque Min-SNR para maximizar la eficiencia durante el entrenamiento.

Zero123++: Resultados y Comparación de Rendimiento

Rendimiento Cualitativo

Para evaluar el rendimiento del marco Zero123++ en función de la calidad generada, se compara con SyncDreamer y Zero-1-to-3-XL, dos de los mejores marcos de último modelo para la generación de contenido. Los marcos se comparan con cuatro imágenes de entrada con diferentes alcances. La primera imagen es un juguete eléctrico de gato, tomada directamente del conjunto de datos Objaverse, y presume de una gran incertidumbre en la parte trasera del objeto. La segunda es una imagen de un extintor de incendios, y la tercera es una imagen de un perro sentado en un cohete, generada por el modelo SDXL. La imagen final es una ilustración de anime. Los pasos de elevación requeridos para los marcos se logran utilizando el método de estimación de elevación del marco One-2-3-4-5, y la eliminación de fondo se logra utilizando el marco SAM. Como se puede ver, el marco Zero123++ genera imágenes de múltiples vistas de alta calidad de manera consistente y es capaz de generalizar tanto a ilustraciones 2D fuera de dominio como a imágenes generadas por IA por igual.

Análisis Cuantitativo

Para comparar cuantitativamente el marco Zero123++ con los marcos de última generación Zero-1-to-3 y Zero-1to-3 XL, los desarrolladores evalúan el puntaje de Similitud de Parches de Imagen Perceptual Aprendida (LPIPS) de estos modelos en los datos de validación, un subconjunto del conjunto de datos Objaverse. Para evaluar el rendimiento del modelo en la generación de imágenes de múltiples vistas, los desarrolladores dividen en mosaicos las imágenes de referencia de verdad del suelo y las imágenes generadas, respectivamente, y luego calculan el puntaje de Similitud de Parches de Imagen Perceptual Aprendida (LPIPS). Los resultados se muestran a continuación y como se puede ver claramente, el marco Zero123++ logra el mejor rendimiento en el conjunto de validación.

Evaluación de Texto a Multi-Vista

Para evaluar la capacidad del marco Zero123++ en la generación de contenido de Texto a Multi-Vista, los desarrolladores primero utilizan el marco SDXL con indicaciones de texto para generar una imagen y luego emplean el marco Zero123++ en la imagen generada. Los resultados se muestran en la siguiente imagen y, como se puede ver, en comparación con el marco Zero-1-to-3 que no puede garantizar una generación consistente de múltiples vistas, el marco Zero123++ devuelve imágenes de múltiples vistas consistentes, realistas y altamente detalladas al implementar el enfoque o canalización texto-a-imagen-a-multi-vista.

Zero123++ Depth ControlNet

Además del marco base Zero123++, los desarrolladores también han lanzado el Zero123++ Depth ControlNet, una versión controlada por profundidad del marco original construido utilizando la arquitectura ControlNet. Las imágenes lineales normalizadas se representan en relación con las imágenes RGB posteriores y se entrena un marco ControlNet para controlar la geometría del marco Zero123++ utilizando la percepción de profundidad.

Conclusión

En este artículo, hemos hablado de Zero123++, un modelo de IA generativo de difusión condicionada a la imagen con el objetivo de generar imágenes de múltiples vistas consistentes en 3D utilizando una sola vista de entrada. Para maximizar la ventaja obtenida de los modelos generativos preentrenados previos, el marco Zero123++ implementa numerosos esquemas de entrenamiento y condicionamiento para minimizar el esfuerzo necesario para ajustar los modelos de imágenes de difusión de ‘lista de estantería’. También hemos discutido los diferentes enfoques y mejoras implementadas por el marco Zero123++ que le permiten obtener resultados comparables e incluso superiores a los logrados por los marcos actuales de última generación.

Sin embargo, a pesar de su eficiencia y capacidad para generar consistentemente imágenes de múltiples vistas de alta calidad, el marco Zero123++ aún tiene margen de mejora, con áreas potenciales de investigación siendo:

  • Modelo Refinador de Dos Etapas, que podría solucionar la incapacidad de Zero123++ de cumplir con los requisitos globales de consistencia.
  • Más Escalamientos para aumentar aún más la capacidad de Zero123++ para generar imágenes de mayor calidad.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

La SEC le está dando a las empresas cuatro días para informar ciberataques

Los críticos cuestionan si las nuevas reglas podrían causar más daño que beneficio.

Ciencia de Datos

JPL Crea Archivo PDF para Ayudar en la Investigación de Malware.

Los científicos de datos han recopilado 8 millones de archivos PDF en un archivo de código abierto para mejorar la se...

Inteligencia Artificial

Este documento de IA evalúa la capacidad de los LLM para adaptarse a nuevas variantes de tareas existentes

El rendimiento notable de los modelos de lenguaje (ML) sugiere que la predicción de la siguiente palabra a gran escal...

Inteligencia Artificial

Cómo los LLM basados en Transformer extraen conocimiento de sus parámetros

En los últimos años, los modelos de lenguaje basados en transformadores (LLMs, por sus siglas en inglés) se han vuelt...

Inteligencia Artificial

Falta de representación de nativos americanos en roles tecnológicos en Estados Unidos'.

Un informe encontró que los estudiantes nativos americanos siguen estando subrepresentados en los cursos de ciencias ...