Este artículo de IA presenta MVControl una arquitectura de red neuronal que revoluciona la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.

Descubre MVControl la revolucionaria arquitectura de red neuronal que cambia la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.

Recientemente, ha habido avances notables en la producción de imágenes en 2D. Los textos de entrada facilitan la producción de gráficos de alta fidelidad. El éxito en la creación de imágenes a partir de texto rara vez se traslada al dominio 3D debido a la necesidad de datos de entrenamiento en 3D. Debido a las buenas propiedades de los modelos de difusión y las representaciones 3D diferenciables, los métodos recientes basados en la optimización de destilación de puntuaciones (SDS, por sus siglas en inglés) tienen como objetivo destilar conocimiento en 3D de un modelo generativo preentrenado de texto a imagen y han logrado resultados impresionantes en lugar de entrenar un gran modelo generativo de texto a 3D desde cero con grandes cantidades de datos en 3D. DreamFusion es un trabajo ejemplar que introduce un enfoque novedoso para la creación de activos en 3D.

En el último año, las metodologías han evolucionado rápidamente, según el paradigma de destilación de 2D a 3D. Se han realizado numerosos estudios para mejorar la calidad de generación mediante la aplicación de múltiples etapas de optimización, optimizando de manera simultánea la difusión antes de la representación 3D, formulando el algoritmo de destilación de puntuaciones con mayor precisión o mejorando los detalles de toda la cadena de producción. Aunque los enfoques mencionados anteriormente pueden producir texturas finas, es difícil garantizar la consistencia de las vistas en el contenido 3D generado debido a que el prior de difusión en 2D no depende de ello. Como resultado, se han realizado varios esfuerzos para introducir información de múltiples vistas en los modelos de difusión preentrenados.

El modelo base se integra con una red de control para permitir la producción controlada de imágenes de texto a múltiples vistas. De manera similar, el equipo de investigación solo entrenó la red de control y los pesos de MVDream se mantuvieron congelados. El equipo de investigación descubrió experimentalmente que la condición de la posición relativa con respecto a la imagen de condición es mejor para controlar la generación de texto a múltiples vistas, incluso si MVDream se entrena con las posiciones de la cámara descritas en el sistema de coordenadas absoluto. Esto está en contradicción con la descripción de la red MVDream preentrenada. Además, la consistencia de las vistas solo se puede lograr fácilmente mediante la adopción directa de la red de control de 2D ControlNet para interactuar con el modelo base, ya que su mecanismo de condicionamiento está diseñado para la creación de imágenes individuales y debe considerar la situación de múltiples vistas.

Para abordar estos problemas, el equipo de investigación de la Universidad de Zhejiang, la Universidad de Westlake y la Universidad de Tongji creó una técnica de condicionamiento única basada en la arquitectura original de ControlNet, que es sencilla pero lo suficientemente exitosa como para proporcionar generación controlada de texto a múltiples vistas. Se utilizó conjuntamente una parte del extenso conjunto de datos en 2D LAION y el conjunto de datos en 3D Objaverse para entrenar MVControl. En este estudio, el equipo de investigación investigó el uso del mapa de bordes como entrada condicional. Sin embargo, su red tiene la capacidad ilimitada de utilizar diferentes tipos de circunstancias de entrada, como mapas de profundidad, imágenes de bocetos, etc. Una vez entrenado, el equipo de investigación puede usar MVControl para proporcionar pautas en 3D para la producción controlada de activos en 3D a partir de texto. Específicamente, el equipo de investigación utiliza un prior de difusión híbrido basado en una red MVControl y un modelo preentrenado de difusión estable. Hay un proceso de generación de grueso a fino. El equipo de investigación solo optimiza la textura en el paso fino cuando ya tienen una geometría decente en la etapa gruesa. Sus pruebas exhaustivas muestran que su enfoque sugerido puede utilizar una imagen de condición de entrada y una descripción escrita para producir imágenes y contenido 3D controlados de alta fidelidad y gran precisión.

En resumen, estas son sus principales contribuciones.

• Después de entrenar su red, se puede utilizar como un componente de una difusión híbrida antes de la síntesis de contenido de texto a 3D mediante optimización SDS.

• El equipo de investigación sugiere un diseño de red único para permitir la generación controlada de imágenes de texto a múltiples vistas de gran precisión.

• Su enfoque puede producir imágenes multidimensional de alta fidelidad y activos en 3D que pueden ser controlados de forma precisa por una imagen de condición de entrada y un texto como indicación, como se muestra en los extensos resultados experimentales.

• Además de generar activos en 3D a través de la optimización SDS, su red MVControl podría ser útil para diversas aplicaciones en la comunidad de visión y gráficos en 3D.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceDeep LearningEditors PickStaff

Was this article helpful?

93 out of 132 found this helpful

Este artículo de IA presenta MVControl una arquitectura de red neuronal que revoluciona la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.

Was this article helpful?

Estos modelos de aprendizaje profundo completamente automatizados se pueden utilizar para predecir el dolor utilizando la Escala de Rostro Felino (ERF) con integración de teléfonos inteligentes’.

5 Herramientas para ayudar a construir tus aplicaciones de LLM

Inteligencia Artificial

Investigadores de la Universidad de Zurich desarrollan SwissBERT un modelo de lenguaje multilingüe para los cuatro idiomas nacionales de Suiza

Traducción de imágenes de bocetos a imágenes Transformando bocetos abstractos en imágenes fotorrealistas con GANs

Google DeepMind utilizó un gran modelo de lenguaje para resolver un problema matemático insoluble

Esta investigación de IA propone SMPLer-X Un modelo de base generalista para captura de movimiento humano en 3D/4D a partir de entradas monoculares.

Sensor de alcohol móvil para la muñeca podría impulsar la investigación sobre el consumo de alcohol.

Cómo ayudar a los estudiantes de secundaria a prepararse para el auge de la inteligencia artificial