Una nueva investigación de Microsoft AI propone HMD-NeMo un nuevo enfoque que aborda la generación de movimientos de cuerpo completo plausibles y precisos incluso cuando las manos puedan estar parcialmente visibles.

Una nueva investigación de Microsoft AI presenta HMD-NeMo Un enfoque innovador para generar movimientos de cuerpo completo precisos y plausibles, incluso cuando las manos están parcialmente visibles.

En el ámbito de las experiencias inmersivas en escenarios de realidad mixta, generar un movimiento de avatar corporal completo preciso y plausible ha sido un desafío persistente. Las soluciones existentes que dependen de dispositivos montados en la cabeza (HMD) suelen utilizar señales de entrada limitadas, como las 6 grados de libertad (6-DoF) de la cabeza y las manos. Si bien los avances recientes han demostrado un rendimiento impresionante en la generación de movimiento corporal completo a partir de señales de cabeza y manos, todos comparten una limitación común: la suposición de una visibilidad total de las manos. Esta suposición, válida en escenarios que involucran controladores de movimiento, es insuficiente en muchas experiencias de realidad mixta donde el seguimiento de manos se basa en sensores egocéntricos, lo que introduce una visibilidad parcial de las manos debido al campo de visión restringido del HMD.

Investigadores del Microsoft Mixed Reality & AI Lab de Cambridge, Reino Unido, han introducido un enfoque innovador: HMD-NeMo (HMD Neural Motion Model). Esta red neuronal unificada genera un movimiento corporal completo plausible y preciso incluso cuando las manos solo son parcialmente visibles. HMD-NeMo funciona en tiempo real y en línea, lo que lo hace adecuado para escenarios dinámicos de realidad mixta.

En el centro de HMD-NeMo se encuentra un codificador espacio-temporal que presenta tokens de máscara adaptables temporalmente (TAMT) novedosos. Estos tokens desempeñan un papel crucial en fomentar un movimiento plausible en ausencia de observaciones de manos. El enfoque incorpora redes neuronales recurrentes para capturar información temporal de manera eficiente y un transformador para modelar relaciones complejas entre diferentes componentes de señales de entrada.

El documento describe dos escenarios considerados para la evaluación: Controladores de Movimiento (MC), donde las manos se siguen con controladores de movimiento, y Seguimiento de Manos (HT), donde las manos se siguen mediante sensores de seguimiento de manos egocéntricos. HMD-NeMo demuestra ser el primer enfoque capaz de manejar ambos escenarios dentro de un marco unificado. En el escenario HT, donde las manos pueden estar parcial o completamente fuera del campo de visión, los tokens de máscara adaptables temporalmente demuestran su efectividad para mantener la coherencia temporal.

El método propuesto se entrena utilizando una función de pérdida que considera la exactitud de los datos, la suavidad y las tareas auxiliares para la reconstrucción de la postura humana en SE(3). Los experimentos involucran extensas evaluaciones del conjunto de datos AMASS, una gran colección de secuencias de movimiento humano convertidas en mallas humanas 3D. Se utilizan métricas como el error medio de posición por articulación (MPJPE) y el error medio de velocidad por articulación (MPJVE) para evaluar el rendimiento de HMD-NeMo.

Las comparaciones con enfoques de vanguardia en el escenario de controlador de movimiento revelan que HMD-NeMo logra una mayor precisión y una generación de movimiento más suave. Además, la capacidad de generalización del modelo se demuestra mediante evaluaciones entre diferentes conjuntos de datos, superando a los métodos existentes en múltiples conjuntos de datos.

Los estudios de ablación profundizan en el impacto de diferentes componentes, incluida la efectividad del módulo TAMT en el manejo de observaciones de manos faltantes. El estudio muestra que las elecciones de diseño de HMD-NeMo, como el codificador espacio-temporal, contribuyen significativamente a su éxito.

En conclusión, HMD-NeMo representa un paso importante hacia adelante para abordar los desafíos de generar un movimiento de avatar corporal completo en escenarios de realidad mixta. Su versatilidad para manejar tanto el escenario de controlador de movimiento como el seguimiento de manos, junto con sus impresionantes métricas de rendimiento, lo posiciona como una solución pionera en el campo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

Vidrio de grado óptico impreso en 3D a escala nanométrica.

Los ingenieros han impreso en tres dimensiones vidrio de calidad óptica a escala nanométrica a baja temperatura utili...

Inteligencia Artificial

Spotify adopta la IA desde listas de reproducción personalizadas hasta anuncios de audio

La popular plataforma de música en streaming, Spotify, ha estado a la vanguardia de la tecnología, explorando continu...

Inteligencia Artificial

¡Otro modelo de lenguaje grande! Conoce a IGEL Una familia de modelos de lenguaje alemanes afinados para instrucciones

IGEL es el Modelo de Lenguaje Grande para Texto en Alemán ajustado a Instrucciones. La versión 001 de IGEL (Instruct-...

Inteligencia Artificial

Los principales sitios web están bloqueando a los rastreadores de IA para acceder a su contenido.

En la era de la IA, los editores están bloqueando de manera más agresiva los rastreadores porque, por ahora, no hay b...

Inteligencia Artificial

Gafas utilizan sonar e inteligencia artificial para interpretar posturas del cuerpo superior en 3D

Investigadores de la Universidad de Cornell han desarrollado un dispositivo portátil que utiliza ondas sonoras inaudi...

Inteligencia Artificial

Científicos imprimen en 3D folículos pilosos en piel cultivada en laboratorio

Un equipo liderado por científicos del Instituto Politécnico de Rensselaer ha impreso en tres dimensiones (3D) folícu...