Una nueva investigación de Microsoft AI propone HMD-NeMo un nuevo enfoque que aborda la generación de movimientos de cuerpo completo plausibles y precisos incluso cuando las manos puedan estar parcialmente visibles.
Una nueva investigación de Microsoft AI presenta HMD-NeMo Un enfoque innovador para generar movimientos de cuerpo completo precisos y plausibles, incluso cuando las manos están parcialmente visibles.
En el ámbito de las experiencias inmersivas en escenarios de realidad mixta, generar un movimiento de avatar corporal completo preciso y plausible ha sido un desafío persistente. Las soluciones existentes que dependen de dispositivos montados en la cabeza (HMD) suelen utilizar señales de entrada limitadas, como las 6 grados de libertad (6-DoF) de la cabeza y las manos. Si bien los avances recientes han demostrado un rendimiento impresionante en la generación de movimiento corporal completo a partir de señales de cabeza y manos, todos comparten una limitación común: la suposición de una visibilidad total de las manos. Esta suposición, válida en escenarios que involucran controladores de movimiento, es insuficiente en muchas experiencias de realidad mixta donde el seguimiento de manos se basa en sensores egocéntricos, lo que introduce una visibilidad parcial de las manos debido al campo de visión restringido del HMD.
Investigadores del Microsoft Mixed Reality & AI Lab de Cambridge, Reino Unido, han introducido un enfoque innovador: HMD-NeMo (HMD Neural Motion Model). Esta red neuronal unificada genera un movimiento corporal completo plausible y preciso incluso cuando las manos solo son parcialmente visibles. HMD-NeMo funciona en tiempo real y en línea, lo que lo hace adecuado para escenarios dinámicos de realidad mixta.
En el centro de HMD-NeMo se encuentra un codificador espacio-temporal que presenta tokens de máscara adaptables temporalmente (TAMT) novedosos. Estos tokens desempeñan un papel crucial en fomentar un movimiento plausible en ausencia de observaciones de manos. El enfoque incorpora redes neuronales recurrentes para capturar información temporal de manera eficiente y un transformador para modelar relaciones complejas entre diferentes componentes de señales de entrada.
- GitLab presenta Duo Chat una herramienta de IA conversacional para aumentar la productividad
- Desbloqueando el poder del Big Data El fascinante mundo del Aprendizaje de Grafos
- Data Doc Cómo GPT-4 sobresalió en mi tarea de codificación de Python del primer año
El documento describe dos escenarios considerados para la evaluación: Controladores de Movimiento (MC), donde las manos se siguen con controladores de movimiento, y Seguimiento de Manos (HT), donde las manos se siguen mediante sensores de seguimiento de manos egocéntricos. HMD-NeMo demuestra ser el primer enfoque capaz de manejar ambos escenarios dentro de un marco unificado. En el escenario HT, donde las manos pueden estar parcial o completamente fuera del campo de visión, los tokens de máscara adaptables temporalmente demuestran su efectividad para mantener la coherencia temporal.
El método propuesto se entrena utilizando una función de pérdida que considera la exactitud de los datos, la suavidad y las tareas auxiliares para la reconstrucción de la postura humana en SE(3). Los experimentos involucran extensas evaluaciones del conjunto de datos AMASS, una gran colección de secuencias de movimiento humano convertidas en mallas humanas 3D. Se utilizan métricas como el error medio de posición por articulación (MPJPE) y el error medio de velocidad por articulación (MPJVE) para evaluar el rendimiento de HMD-NeMo.
Las comparaciones con enfoques de vanguardia en el escenario de controlador de movimiento revelan que HMD-NeMo logra una mayor precisión y una generación de movimiento más suave. Además, la capacidad de generalización del modelo se demuestra mediante evaluaciones entre diferentes conjuntos de datos, superando a los métodos existentes en múltiples conjuntos de datos.
Los estudios de ablación profundizan en el impacto de diferentes componentes, incluida la efectividad del módulo TAMT en el manejo de observaciones de manos faltantes. El estudio muestra que las elecciones de diseño de HMD-NeMo, como el codificador espacio-temporal, contribuyen significativamente a su éxito.
En conclusión, HMD-NeMo representa un paso importante hacia adelante para abordar los desafíos de generar un movimiento de avatar corporal completo en escenarios de realidad mixta. Su versatilidad para manejar tanto el escenario de controlador de movimiento como el seguimiento de manos, junto con sus impresionantes métricas de rendimiento, lo posiciona como una solución pionera en el campo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Rosalyn revela StableSight AI para combatir el creciente fraude en exámenes en línea
- Tomando medidas legales para proteger a los usuarios de IA y a las pequeñas empresas
- Mejore las respuestas de LLM en casos de uso de RAG interactuando con el usuario
- La superchip NVIDIA Grace Hopper alimenta más de 40 supercomputadoras de IA en centros de investigación global, fabricantes de sistemas y proveedores de servicios en la nube
- Investigadores preparados para avances con NVIDIA CUDA Quantum
- Los gemelos digitales pueden permitir el tratamiento de salud personalizado
- Los ingenieros están en una misión de encontrar fallas