Investigadores de ETH Zurich y Microsoft proponen X-Avatar un modelo de avatar humano implícito animable capaz de capturar la postura del cuerpo humano y expresiones faciales.

Investigadores proponen X-Avatar, un modelo de avatar humano animable capaz de capturar postura y expresiones faciales.

La pose, la mirada, la expresión facial, los gestos de las manos, etc., colectivamente llamados “lenguaje corporal”, han sido objeto de muchas investigaciones académicas. Registrar, interpretar y crear señales no verbales de manera precisa puede mejorar en gran medida el realismo de los avatares en entornos de telepresencia, realidad aumentada (AR) y realidad virtual (VR).

Los modelos de avatar de última generación, como los de la familia SMPL, pueden representar correctamente diferentes formas del cuerpo humano en posiciones realistas. Sin embargo, están limitados por las representaciones basadas en mallas que utilizan y por la calidad de la malla 3D. Además, dichos modelos a menudo solo simulan cuerpos desnudos y no representan ropa o cabello, lo que reduce el realismo de los resultados.

Introducen X-Avatar, un modelo innovador que puede capturar la gama completa de expresiones humanas en avatares digitales para crear entornos de telepresencia, realidad aumentada y realidad virtual realistas. X-Avatar es un modelo de avatar humano implícito expresivo desarrollado por investigadores de ETH Zurich y Microsoft. Puede capturar movimientos del cuerpo y las manos, emociones faciales y otros rasgos de apariencia humanos de alta fidelidad. La técnica puede aprender tanto de escaneos 3D completos como de datos RGB-D, produciendo modelos completos de cuerpos, manos, emociones faciales y apariencia.

Los investigadores proponen un módulo de deformación hacia adelante de aprendizaje consciente de las partes que puede controlar el espacio de parámetros SMPL-X, lo que permite una animación expresiva de los X-Avatars. Los investigadores presentan algoritmos únicos de muestreo e inicialización conscientes de las partes para entrenar de manera efectiva los campos de forma y deformación neurales. Los investigadores aumentan la geometría y los campos de deformación con una red de texturas condicionada por la posición, la expresión facial, la geometría y las normales de la superficie deformada para capturar la apariencia del avatar con detalles de alta frecuencia. Esto produce resultados de mayor fidelidad, especialmente para partes del cuerpo más pequeñas, al tiempo que mantiene un entrenamiento efectivo a pesar del creciente número de huesos articulados. Los investigadores demuestran empíricamente que el enfoque logra resultados cuantitativos y cualitativos superiores en la tarea de animación en comparación con líneas de base sólidas en ambas áreas de datos.

Los investigadores presentan un nuevo conjunto de datos, llamado X-Humans, con 233 secuencias de escaneos texturizados de alta calidad de 20 sujetos, para un total de 35,500 fotogramas de datos, para ayudar a futuras investigaciones sobre avatares expresivos. X-Avatar sugiere un modelo humano caracterizado por superficies implícitas neurales articuladas que se adaptan a la diversa topología de individuos vestidos y logran una resolución geométrica mejorada y una mayor fidelidad de la apariencia general. Los autores del estudio definen tres campos neurales distintos: uno para modelar la geometría utilizando una red de ocupación implícita, otro para modelar la deformación utilizando deformación lineal blend skinning (LBS) con pesos continuos de deformación, y otro para modelar la apariencia utilizando el valor de color RGB.

El modelo X-Avatar puede tomar tanto un escaneo 3D en posición como una imagen RGB-D para su procesamiento. Parte de su diseño incorpora una red de conformación para modelar la geometría en un espacio canónico y una red de deformación que utiliza deformación lineal blend skinning (LBS) aprendida para establecer correspondencias entre áreas canónicas y deformadas.

Los investigadores comienzan con el espacio de parámetros de SMPL-X, una extensión de SMPL que captura la forma, apariencia y deformaciones de personas de cuerpo entero, prestando especial atención a las posiciones de las manos y las emociones faciales para generar avatares humanos expresivos y controlables. Un modelo humano descrito por superficies implícitas neurales articuladas representa la variada topología de individuos vestidos. Al mismo tiempo, un método único de inicialización consciente de las partes mejora considerablemente el realismo del resultado al aumentar la frecuencia de muestreo de las partes del cuerpo más pequeñas.

Los resultados muestran que X-Avatar puede registrar con precisión las poses del cuerpo y las manos, así como las emociones y la apariencia facial, lo que permite crear avatares más expresivos y realistas. El grupo detrás de esta iniciativa tiene los dedos cruzados para que su método pueda inspirar más estudios para darle más personalidad a los AIs.

Conjunto de datos utilizado

Escaneos texturizados de alta calidad y registros SMPL[-X]; 20 sujetos; 233 secuencias; 35,427 fotogramas; posición del cuerpo + gesto de la mano + expresión facial; una amplia gama de opciones de ropa y peinado; una amplia gama de edades

Características

Existen varios métodos para enseñar a los X-Avatars.
Imagen de escaneos 3D utilizados en el entrenamiento, en la parte superior derecha. En la parte inferior: avatares impulsados por pruebas de pose.
Información RGB-D con fines educativos, en la parte superior. Los avatares de prueba de pose muestran un rendimiento inferior.
El enfoque recupera una mayor articulación de las manos y expresión facial que otras líneas de base en la prueba de animación. Esto resulta en X-Avatars animados utilizando movimientos recuperados por PyMAF-X a partir de películas RGB monoculares.

Limitaciones

El X-Avatar tiene dificultades para modelar prendas sin hombros o pantalones (por ejemplo, faldas). Sin embargo, los investigadores a menudo solo entrenan un modelo por sujeto, por lo que su capacidad para generalizar más allá de un solo individuo aún debe expandirse.

Contribuciones

X-Avatar es el primer modelo de avatar humano implícito expresivo que captura de manera integral la postura corporal, la posición de las manos, las emociones faciales y la apariencia.
Los procedimientos de inicialización y muestreo que consideran la estructura subyacente mejoran la calidad de la salida y mantienen la eficiencia del entrenamiento.
X-Humans es un conjunto de datos completamente nuevo de 233 secuencias que totalizan 35,500 cuadros de escaneos texturizados de alta calidad de 20 personas que muestran una amplia gama de movimientos corporales, de manos y emociones faciales.

X-Avatar es inigualable al capturar la postura corporal, la posición de las manos, las emociones faciales y la apariencia general. Utilizando el conjunto de datos X-Humans recientemente lanzado, los investigadores han demostrado el método.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionDeep LearningEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Investigadores de ETH Zurich y Microsoft proponen X-Avatar un modelo de avatar humano implícito animable capaz de capturar la postura del cuerpo humano y expresiones faciales.

Was this article helpful?

Herramientas de IA principales para emprendedores 2023

6 Pasos para Proteger tu Privacidad al Usar Herramientas de IA Generativa

Inteligencia Artificial

Una nueva investigación de IA de China combina métodos de aprendizaje automático con preguntas para revelar nuevas dimensiones en las conexiones entre las relaciones supervisor-estudiante

¿Pueden los modelos de lenguaje grandes realmente hacer matemáticas? Esta investigación de inteligencia artificial AI presenta MathGLM un modelo robusto para resolver problemas matemáticos sin una calculadora.

Presentamos LegalBench un punto de referencia de IA de código abierto construido de manera colaborativa para evaluar el razonamiento legal en modelos de lenguaje grandes en inglés.

Investigadores de la Universidad Tsinghua y Microsoft presentan ToRA un agente de razonamiento integrado con herramientas de inteligencia artificial para la resolución de problemas matemáticos.

Meet mPLUG-Owl2 un modelo de base multilingüe multimodal que transforma los modelos de lenguaje multilingües multimodales (MLLM) mediante la colaboración de modalidades.

La inteligencia artificial se utilizó para crear una nueva canción final de los Beatles, según Paul McCartney.