Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Conoce a Rodin, un nuevo marco de IA para generar avatares digitales en 3D de diversas fuentes.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias de la computación. Representan una de las formas más prometedoras de analizar y sintetizar datos visuales. El Diffusion Estable es el modelo generativo más conocido para producir imágenes hermosas y realistas a partir de una entrada compleja. La arquitectura se basa en Modelos de Difusión (DMs), que han demostrado un poder generativo fenomenal para imágenes y videos. Los avances rápidos en difusión y modelado generativo están impulsando una revolución en la creación de contenido 2D. El mantra es bastante simple: “Si puedes describirlo, puedes visualizarlo”, o mejor aún, “si puedes describirlo, el modelo puede pintarlo para ti”. Es realmente increíble lo que los modelos generativos son capaces de hacer.

Aunque el contenido 2D ha demostrado ser una prueba de estrés para los DMs, el contenido 3D plantea varios desafíos debido, entre otras cosas, a la dimensión adicional. Generar contenido 3D, como avatares, con la misma calidad que el contenido 2D es una tarea difícil dada la memoria y los costos de procesamiento, que pueden ser prohibitivos para producir los detalles ricos requeridos para avatares de alta calidad.

Con la tecnología impulsando el uso de avatares digitales en películas, juegos, metaversos y la industria 3D, permitir que cualquier persona cree un avatar digital puede ser beneficioso. Esa es la motivación que impulsa el desarrollo de este trabajo.

Los autores proponen la Red de difusión Roll-out (Rodin) para abordar el problema de crear un avatar digital. Una descripción general del modelo se muestra en la figura a continuación.

La entrada al modelo puede ser una imagen, ruido aleatorio o una descripción de texto del avatar deseado. El vector latente z se deriva posteriormente de la entrada dada y se utiliza en la difusión. El proceso de difusión consiste en varios pasos de ruido-denoise. En primer lugar, se agrega ruido aleatorio al estado inicial o la imagen y se desenfoca para obtener una imagen mucho más nítida.

La diferencia aquí radica en la naturaleza 3D del contenido deseado. El proceso de difusión se ejecuta como de costumbre, pero en lugar de apuntar a una imagen 2D, el modelo de difusión genera la geometría gruesa del avatar, seguida de un difusor de aumento de difusión para la síntesis de detalles.

La eficiencia computacional y de memoria es uno de los objetivos de este trabajo. Para lograr esto, los autores aprovecharon la representación de campo de radiancia neuronal en tres planos (tres ejes), que, en comparación con las cuadrículas de voxels, ofrece una huella de memoria considerablemente más pequeña sin sacrificar la expresividad.

Luego, se entrena otro modelo de difusión para aumentar la representación de tres planos producida hasta alcanzar la resolución deseada. Por último, se utiliza un decodificador MLP ligero que consta de 4 capas totalmente conectadas para generar una imagen volumétrica RGB.

A continuación se presentan algunos resultados.

En comparación con los enfoques más avanzados mencionados, Rodin proporciona los avatares digitales más nítidos. Para el modelo, no se observan artefactos en las muestras compartidas, a diferencia de las otras técnicas.

Este fue el resumen de Rodin, un nuevo marco de trabajo para generar fácilmente avatares digitales en 3D a partir de diversas fuentes de entrada. Si estás interesado, puedes encontrar más información en los enlaces a continuación.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsartificial intelligenceComputer VisionCountryDeep LearningEditors PickMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Was this article helpful?

Los creativos están luchando contra la inteligencia artificial con demandas legales

Este artículo de Inteligencia Artificial (IA) de Corea del Sur propone FFNeRV una nueva representación de video por cuadros utilizando mapas de flujo por cuadros y cuadrículas temporales de múltiple resolución

Inteligencia Artificial

Investigadores de Stanford presentan HyenaDNA un modelo genómico de base de largo alcance con longitudes de contexto de hasta 1 millón de tokens a una resolución de nucleótido único.

Una nueva investigación de aprendizaje profundo identifica un medicamento antipalúdico como posible tratamiento para la osteoporosis

GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad

Investigadores del Instituto de Tecnología de Karlsruhe (KIT) avanzan en el mapeo de la precipitación con aprendizaje profundo para mejorar la resolución espacial y temporal.

La FAA aprueba el sistema de aeronaves no tripuladas más grande de los Estados Unidos.

Investigadores de Apple proponen un nuevo modelo de descomposición de tensores para el filtrado colaborativo con retroalimentación implícita