Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Conoce a Rodin, un nuevo marco de IA para generar avatares digitales en 3D de diversas fuentes.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias de la computación. Representan una de las formas más prometedoras de analizar y sintetizar datos visuales. El Diffusion Estable es el modelo generativo más conocido para producir imágenes hermosas y realistas a partir de una entrada compleja. La arquitectura se basa en Modelos de Difusión (DMs), que han demostrado un poder generativo fenomenal para imágenes y videos. Los avances rápidos en difusión y modelado generativo están impulsando una revolución en la creación de contenido 2D. El mantra es bastante simple: “Si puedes describirlo, puedes visualizarlo”, o mejor aún, “si puedes describirlo, el modelo puede pintarlo para ti”. Es realmente increíble lo que los modelos generativos son capaces de hacer.

Aunque el contenido 2D ha demostrado ser una prueba de estrés para los DMs, el contenido 3D plantea varios desafíos debido, entre otras cosas, a la dimensión adicional. Generar contenido 3D, como avatares, con la misma calidad que el contenido 2D es una tarea difícil dada la memoria y los costos de procesamiento, que pueden ser prohibitivos para producir los detalles ricos requeridos para avatares de alta calidad.

Con la tecnología impulsando el uso de avatares digitales en películas, juegos, metaversos y la industria 3D, permitir que cualquier persona cree un avatar digital puede ser beneficioso. Esa es la motivación que impulsa el desarrollo de este trabajo.

Los autores proponen la Red de difusión Roll-out (Rodin) para abordar el problema de crear un avatar digital. Una descripción general del modelo se muestra en la figura a continuación.

La entrada al modelo puede ser una imagen, ruido aleatorio o una descripción de texto del avatar deseado. El vector latente z se deriva posteriormente de la entrada dada y se utiliza en la difusión. El proceso de difusión consiste en varios pasos de ruido-denoise. En primer lugar, se agrega ruido aleatorio al estado inicial o la imagen y se desenfoca para obtener una imagen mucho más nítida.

La diferencia aquí radica en la naturaleza 3D del contenido deseado. El proceso de difusión se ejecuta como de costumbre, pero en lugar de apuntar a una imagen 2D, el modelo de difusión genera la geometría gruesa del avatar, seguida de un difusor de aumento de difusión para la síntesis de detalles.

La eficiencia computacional y de memoria es uno de los objetivos de este trabajo. Para lograr esto, los autores aprovecharon la representación de campo de radiancia neuronal en tres planos (tres ejes), que, en comparación con las cuadrículas de voxels, ofrece una huella de memoria considerablemente más pequeña sin sacrificar la expresividad.

Luego, se entrena otro modelo de difusión para aumentar la representación de tres planos producida hasta alcanzar la resolución deseada. Por último, se utiliza un decodificador MLP ligero que consta de 4 capas totalmente conectadas para generar una imagen volumétrica RGB.

A continuación se presentan algunos resultados.

En comparación con los enfoques más avanzados mencionados, Rodin proporciona los avatares digitales más nítidos. Para el modelo, no se observan artefactos en las muestras compartidas, a diferencia de las otras técnicas.

Este fue el resumen de Rodin, un nuevo marco de trabajo para generar fácilmente avatares digitales en 3D a partir de diversas fuentes de entrada. Si estás interesado, puedes encontrar más información en los enlaces a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una nueva investigación de aprendizaje profundo identifica un medicamento antipalúdico como posible tratamiento para la osteoporosis

El problema de la osteoporosis, una condición caracterizada por una pérdida excesiva de hueso y un alto riesgo de fra...

Inteligencia Artificial

GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad

En el desarrollo de software, los desarrolladores enfrentan frecuentemente desafíos al trabajar con código complejo o...

Inteligencia Artificial

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

La Administración Federal de Aviación de los Estados Unidos aprobó la operación comercial de los rociadores agrícolas...

Inteligencia Artificial

Investigadores de Apple proponen un nuevo modelo de descomposición de tensores para el filtrado colaborativo con retroalimentación implícita

La capacidad para inferir las preferencias del usuario a partir de comportamientos pasados es crucial para ofrecer su...