Este artículo de IA presenta MVControl una arquitectura de red neuronal que revoluciona la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.
Descubre MVControl la revolucionaria arquitectura de red neuronal que cambia la generación de imágenes en múltiples vistas controlables y la creación de contenido en 3D.
Recientemente, ha habido avances notables en la producción de imágenes en 2D. Los textos de entrada facilitan la producción de gráficos de alta fidelidad. El éxito en la creación de imágenes a partir de texto rara vez se traslada al dominio 3D debido a la necesidad de datos de entrenamiento en 3D. Debido a las buenas propiedades de los modelos de difusión y las representaciones 3D diferenciables, los métodos recientes basados en la optimización de destilación de puntuaciones (SDS, por sus siglas en inglés) tienen como objetivo destilar conocimiento en 3D de un modelo generativo preentrenado de texto a imagen y han logrado resultados impresionantes en lugar de entrenar un gran modelo generativo de texto a 3D desde cero con grandes cantidades de datos en 3D. DreamFusion es un trabajo ejemplar que introduce un enfoque novedoso para la creación de activos en 3D.
En el último año, las metodologías han evolucionado rápidamente, según el paradigma de destilación de 2D a 3D. Se han realizado numerosos estudios para mejorar la calidad de generación mediante la aplicación de múltiples etapas de optimización, optimizando de manera simultánea la difusión antes de la representación 3D, formulando el algoritmo de destilación de puntuaciones con mayor precisión o mejorando los detalles de toda la cadena de producción. Aunque los enfoques mencionados anteriormente pueden producir texturas finas, es difícil garantizar la consistencia de las vistas en el contenido 3D generado debido a que el prior de difusión en 2D no depende de ello. Como resultado, se han realizado varios esfuerzos para introducir información de múltiples vistas en los modelos de difusión preentrenados.
El modelo base se integra con una red de control para permitir la producción controlada de imágenes de texto a múltiples vistas. De manera similar, el equipo de investigación solo entrenó la red de control y los pesos de MVDream se mantuvieron congelados. El equipo de investigación descubrió experimentalmente que la condición de la posición relativa con respecto a la imagen de condición es mejor para controlar la generación de texto a múltiples vistas, incluso si MVDream se entrena con las posiciones de la cámara descritas en el sistema de coordenadas absoluto. Esto está en contradicción con la descripción de la red MVDream preentrenada. Además, la consistencia de las vistas solo se puede lograr fácilmente mediante la adopción directa de la red de control de 2D ControlNet para interactuar con el modelo base, ya que su mecanismo de condicionamiento está diseñado para la creación de imágenes individuales y debe considerar la situación de múltiples vistas.
- Estos modelos de aprendizaje profundo completamente automatizados se pueden utilizar para predecir el dolor utilizando la Escala de Rostro Felino (ERF) con integración de teléfonos inteligentes’.
- Revelando los entresijos Un análisis a fondo del mecanismo de atención de BERT
- Los 10 mejores modelos de lenguaje grandes en Hugging Face
Para abordar estos problemas, el equipo de investigación de la Universidad de Zhejiang, la Universidad de Westlake y la Universidad de Tongji creó una técnica de condicionamiento única basada en la arquitectura original de ControlNet, que es sencilla pero lo suficientemente exitosa como para proporcionar generación controlada de texto a múltiples vistas. Se utilizó conjuntamente una parte del extenso conjunto de datos en 2D LAION y el conjunto de datos en 3D Objaverse para entrenar MVControl. En este estudio, el equipo de investigación investigó el uso del mapa de bordes como entrada condicional. Sin embargo, su red tiene la capacidad ilimitada de utilizar diferentes tipos de circunstancias de entrada, como mapas de profundidad, imágenes de bocetos, etc. Una vez entrenado, el equipo de investigación puede usar MVControl para proporcionar pautas en 3D para la producción controlada de activos en 3D a partir de texto. Específicamente, el equipo de investigación utiliza un prior de difusión híbrido basado en una red MVControl y un modelo preentrenado de difusión estable. Hay un proceso de generación de grueso a fino. El equipo de investigación solo optimiza la textura en el paso fino cuando ya tienen una geometría decente en la etapa gruesa. Sus pruebas exhaustivas muestran que su enfoque sugerido puede utilizar una imagen de condición de entrada y una descripción escrita para producir imágenes y contenido 3D controlados de alta fidelidad y gran precisión.
En resumen, estas son sus principales contribuciones.
• Después de entrenar su red, se puede utilizar como un componente de una difusión híbrida antes de la síntesis de contenido de texto a 3D mediante optimización SDS.
• El equipo de investigación sugiere un diseño de red único para permitir la generación controlada de imágenes de texto a múltiples vistas de gran precisión.
• Su enfoque puede producir imágenes multidimensional de alta fidelidad y activos en 3D que pueden ser controlados de forma precisa por una imagen de condición de entrada y un texto como indicación, como se muestra en los extensos resultados experimentales.
• Además de generar activos en 3D a través de la optimización SDS, su red MVControl podría ser útil para diversas aplicaciones en la comunidad de visión y gráficos en 3D.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Dominando la generación de datos sintéticos aplicaciones y mejores prácticas
- ¿Cómo las bases de datos vectoriales dan forma al futuro de las soluciones de IA generativa?
- Microsoft se une a sindicatos laborales estadounidenses para discutir sobre la fuerza laboral de IA
- Meta AI anuncia Purple Llama para ayudar a la comunidad a construir de manera ética con modelos de IA abiertos y generativos.
- Investigadores de Google DeepMind proponen Código de Cadena (CoC) una extensión simple pero sorprendentemente efectiva que mejora el razonamiento del Modelo de Lenguaje (LM) impulsado por código
- Enseñando a la IA a jugar juegos de mesa
- Investigadores de UCLA y CMU presentan Stormer Una red neuronal Transformadora escalable para una pronóstico meteorológico de mediano alcance hábil y confiable.