Conoce StyleAvatar3D Un nuevo método de IA para generar avatares 3D estilizados utilizando modelos de difusión de imagen-texto y una red de generación 3D basada en GAN.

Descubre StyleAvatar3D, un nuevo método de IA para generar avatares 3D estilizados utilizando modelos de imagen-texto y una red GAN de generación 3D.

Desde la aparición de asociaciones de imagen y texto a gran escala y de topologías sofisticadas de modelos generativos como los modelos de difusión, los modelos generativos han avanzado enormemente en la producción de imágenes 2D de alta fidelidad. Estos modelos eliminan la intervención manual al permitir a los usuarios crear imágenes realistas a partir de indicaciones de texto. Debido a la falta de diversidad y accesibilidad de los modelos de aprendizaje en 3D en comparación con sus contrapartes en 2D, los modelos generativos en 3D siguen enfrentando problemas significativos. La disponibilidad de modelos 3D de alta calidad está limitada por el arduo y altamente especializado desarrollo manual de activos en 3D en motores de software.

Recientemente, los investigadores han investigado métodos generativos de imagen-texto pre-entrenados para crear modelos 3D de alta fidelidad y abordar este problema. Estos modelos incluyen conocimientos previos detallados sobre la geometría y apariencia de los elementos, lo que puede facilitar la creación de modelos 3D realistas y variados. En este estudio, investigadores de Tencent, la Universidad Tecnológica de Nanyang, la Universidad de Fudan y la Universidad de Zhejiang presentan un método único para crear avatares con estilo 3D que utilizan modelos de difusión de texto a imagen que ya han sido entrenados y permiten a los usuarios elegir estilos y rasgos faciales de los avatares mediante indicaciones de texto. Utilizan EG3D, una red generativa basada en GAN para la generación en 3D, específicamente porque tiene varias ventajas.

En primer lugar, EG3D utiliza fotos calibradas en lugar de datos en 3D para el entrenamiento, lo que permite aumentar continuamente la variedad y realismo de los modelos 3D utilizando datos de imagen mejorados. Este logro es bastante sencillo para las fotografías en 2D. En segundo lugar, pueden producir cada vista de forma independiente, controlando eficazmente la aleatoriedad durante la formación de la imagen debido a que las imágenes utilizadas para el entrenamiento no requieren uniformidad de múltiples vistas en cuanto a apariencia. Su método utiliza ControlNet basado en StableDiffusion, que permite la producción de imágenes dirigida por posturas predeterminadas, para crear imágenes de entrenamiento 2D calibradas para el entrenamiento de EG3D.

La reutilización de características de la cámara de fotografías de posturas con fines de aprendizaje permite que estas posturas se sinteticen o se recuperen de avatares en motores actuales. Incluso cuando se utilizan fotografías de posturas precisas como guía, ControlNet a menudo tiene dificultades para crear vistas con ángulos enormes, como la parte posterior de la cabeza. Estas salidas fallidas deben mejorarse para la generación de modelos 3D completos. Han adoptado dos enfoques separados para abordar este problema. En primer lugar, han creado indicaciones específicas para cada vista durante la producción de imágenes para reducir drásticamente las ocurrencias de fallos. Las fotos sintetizadas pueden coincidir parcialmente con las fotos de posturas, incluso con indicaciones específicas de vista.

Para abordar esta discrepancia, han creado un discriminador de nivel bajo a alto para el entrenamiento de GAN en 3D. Cada dato de imagen en su sistema tiene una anotación de postura de nivel bajo y alto. Se selecciona al azar una anotación de entrenamiento durante el entrenamiento de GAN. Se da una alta probabilidad de adoptar una buena anotación de postura para vistas seguras como la cara frontal, pero el aprendizaje para el resto de las opiniones depende más de ideas generales. Este método puede producir modelos 3D más precisos y variados incluso cuando las fotos de entrada incluyen anotaciones desordenadas. Además, han creado un modelo de difusión latente en el espacio de estilo latente de StyleGAN para permitir la creación condicional de 3D utilizando una entrada de imagen.

El modelo de difusión se puede entrenar rápidamente debido a las bajas dimensiones del código de estilo, su gran expresividad y compacidad. Muestrean directamente combinaciones de imágenes y códigos de estilo de sus generadores 3D entrenados para aprender el modelo de difusión. Realizaron pruebas exhaustivas en muchos conjuntos de datos masivos para evaluar la eficacia de su estrategia propuesta. Sus hallazgos muestran que su método supera a las técnicas de vanguardia actuales en cuanto a calidad visual y variedad. En conclusión, esta investigación presenta un método único que utiliza modelos de difusión de imagen-texto entrenados para producir avatares 3D de alta fidelidad.

Su arquitectura aumenta considerablemente la versatilidad de la producción de avatares al permitir que los estilos y rasgos faciales sean determinados por indicaciones de texto. Para abordar el problema de la falta de alineación de la posición de la imagen, también han propuesto un discriminador de postura de nivel bajo a alto, que permitirá un mejor uso de los datos de imagen con anotaciones de postura erróneas. Por último, pero no menos importante, han creado un módulo adicional de generación condicional que permite la creación de 3D condicionada utilizando una entrada de imagen en el espacio de estilo latente. Este módulo aumenta aún más la adaptabilidad del marco y permite a los usuarios crear modelos 3D personalizados a sus gustos. También planean publicar el código de forma abierta.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsAI ToolApplicationsartificial intelligenceComputer VisionEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce StyleAvatar3D Un nuevo método de IA para generar avatares 3D estilizados utilizando modelos de difusión de imagen-texto y una red de generación 3D basada en GAN.

Was this article helpful?

Resultados de la Open Source AI Game Jam

Cómo mejorar el código generado por ChatGPT con la ingeniería de prompts

Inteligencia Artificial

Europa avanza en la regulación de la IA, desafiando el poder de los gigantes tecnológicos.

La IA podría introducir mensajes secretos en memes

¿Por qué el aprendizaje profundo siempre se realiza en datos de matriz? Nueva investigación de IA introduce 'Spatial Functa', donde desde los datos hasta la Functa se tratan como uno solo.

Grupo de noticias dice que los chatbots de inteligencia artificial dependen en gran medida del contenido de noticias

Esta startup de IA con sede en Finlandia presenta a Poro un revolucionario modelo de lenguaje de código abierto que impulsa las capacidades europeas de IA multilingüe.

Investigadores de UC Berkeley presentan Dynalang un agente de IA que aprende un modelo mundial multimodal para predecir representaciones futuras de texto e imágenes, y aprende a actuar a partir de simulaciones imaginadas del modelo.