Conoce a BeLFusion Un enfoque de espacio latente de comportamiento para la predicción de movimiento humano estocástico realista y diverso utilizando difusión latente

Conoce a BeLFusion, un enfoque de espacio latente de comportamiento para la predicción de movimiento humano estocástico diverso utilizando difusión latente.

A medida que la Inteligencia Artificial (IA) continúa cautivando al mundo, surge una notable aplicación en la intersección de la visión por computadora y la IA conocida como Predicción de Movimiento Humano (HMP, por sus siglas en inglés). Esta fascinante tarea implica predecir el movimiento o acciones futuras de sujetos humanos basándose en secuencias de movimiento observadas. El objetivo es predecir cómo evolucionarán las poses o movimientos del cuerpo de una persona. HMP encuentra aplicaciones en diversos campos, incluyendo robótica, avatares virtuales, vehículos autónomos e interacción humano-computadora.

HMP Estocástico es una extensión del HMP tradicional que se centra en predecir la distribución de posibles movimientos futuros en lugar de un futuro determinista único. Este enfoque reconoce la espontaneidad e imprevisibilidad inherentes al comportamiento humano, con el objetivo de capturar la incertidumbre asociada con las acciones o movimientos futuros. El HMP Estocástico tiene en cuenta la variabilidad y diversidad en el comportamiento humano al considerar la distribución de posibles movimientos futuros, lo que lleva a predicciones más realistas y flexibles. Es particularmente valioso cuando anticipar múltiples comportamientos posibles es crucial, como en aplicaciones de robótica asistencial o vigilancia.

El HMP Estocástico a menudo se aborda utilizando modelos generativos como GANs o VAEs para predecir múltiples movimientos futuros para cada secuencia observada. Sin embargo, este énfasis en generar movimientos diversos en el espacio de coordenadas ha llevado a predicciones poco realistas y rápidamente divergentes que pueden necesitar alinearse mejor con el movimiento observado. Además, estos métodos a menudo pasan por alto la anticipación de comportamientos de bajo rango diversos con desplazamientos articulares sutiles. Como resultado, existe la necesidad de nuevos enfoques que consideren la diversidad de comportamiento y produzcan predicciones más realistas en tareas de HMP Estocástico. Para abordar las limitaciones de los métodos existentes de HMP Estocástico, los investigadores de la Universidad de Barcelona y el Centro de Visión por Computadora proponen BeLFusion. Este novedoso enfoque introduce un espacio latente de comportamiento para generar secuencias de movimiento humano realistas y diversas.

Movimientos rápidos y divergentes en modelos generativos.

El objetivo principal de BeLFusion es desentrañar el comportamiento del movimiento, permitiendo transiciones más suaves entre poses observadas y predichas. Esto se logra a través de un VAE de Comportamiento que consta de un Codificador de Comportamiento, un Acoplador de Comportamiento, un Codificador de Contexto y un Decodificador Auxiliar. El Codificador de Comportamiento combina una Unidad Recurrente con Compuertas (GRU, por sus siglas en inglés) y capas convolucionales 2D para mapear las coordenadas articulares a una distribución latente. El Acoplador de Comportamiento luego transfiere el comportamiento muestreado al movimiento en curso, generando movimientos diversos y contextualmente apropiados. BeLFusion también incorpora un Modelo de Difusión Latente (LDM, por sus siglas en inglés) condicional para codificar con precisión la dinámica del comportamiento y transferirla de manera efectiva a los movimientos en curso al minimizar los errores latentes y de reconstrucción para mejorar la diversidad en las secuencias de movimiento generadas.

La innovadora arquitectura de BeLFusion continúa con un Codificador de Observación, un autoencoder que genera estados ocultos a partir de las coordenadas articulares. El modelo utiliza el Modelo de Difusión Latente (LDM), que emplea una U-Net con mecanismos de atención cruzada y bloques residuales para muestrear de un espacio latente donde el comportamiento está desentrañado de la pose y el movimiento. Al promover la diversidad desde una perspectiva de comportamiento y mantener la coherencia con el pasado inmediato, BeLFusion produce predicciones de movimiento significativamente más realistas y coherentes que los métodos de vanguardia en HMP Estocástico. A través de su combinación única de desentrañamiento de comportamiento y difusión latente, BeLFusion representa un avance prometedor en la predicción de movimiento humano. Ofrece el potencial de generar movimientos más naturales y contextualmente apropiados para una amplia gama de aplicaciones.

La evaluación experimental demuestra las impresionantes capacidades de generalización de BeLFusion, ya que tiene un buen desempeño tanto en escenarios conocidos como desconocidos. Supera a los métodos de vanguardia en varias métricas en una evaluación entre conjuntos de datos utilizando los desafiantes resultados en los conjuntos de datos Human3.6M y AMASS. En H36M, BeLFusion demuestra un Error Promedio de Desplazamiento (ADE) de aproximadamente 0.372 y un Error de Desplazamiento Final (FDE) de alrededor de 0.474. Al mismo tiempo, en AMASS, alcanza un ADE de aproximadamente 1.977 y un FDE de aproximadamente 0.513. Los resultados indican la capacidad superior de BeLFusion para generar predicciones precisas y diversas, demostrando su efectividad y capacidades de generalización para la predicción realista del movimiento humano en diferentes conjuntos de datos y clases de acción.

En general, BeLFusion es un método novedoso para la predicción del movimiento humano que logra un rendimiento de vanguardia en métricas de precisión tanto para los conjuntos de datos Human3.6M como AMASS. Utiliza espacios latentes de comportamiento y modelos de difusión latente para generar predicciones diversas y adaptadas al contexto. La capacidad del método para capturar y transferir comportamientos de una secuencia a otra lo hace robusto frente a cambios de dominio y mejora las capacidades de generalización. Además, la evaluación cualitativa muestra que las predicciones de BeLFusion son más realistas que otros métodos de vanguardia. Ofrece una solución prometedora para la predicción del movimiento humano, con aplicaciones potenciales en animación, realidad virtual y robótica.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Ve este nuevo sistema de IA llamado Estudiante de Juegos (SoG) que es capaz de vencer a los humanos en una variedad de juegos y aprender a jugar nuevos'.

Existe una larga tradición de utilizar juegos como indicadores de rendimiento de la IA. Los enfoques basados ​​en bús...

Inteligencia Artificial

Conoce al Omnívoro Diseñador Industrial combina el Arte y el OpenUSD para crear Activos 3D para el Entrenamiento de IA

Nota del editor: esta publicación es parte de nuestra serie Conoce al Omnivore, que presenta a creadores y desarrolla...

Noticias de Inteligencia Artificial

Herramientas para evaluar el riesgo de delincuencia en jóvenes cohortes propensos a fracasar con el tiempo.

Los científicos sugieren que el sesgo de cohorte impulsado por el cambio social socava los instrumentos de evaluación...

Inteligencia Artificial

Los exámenes no supervisados en línea proporcionan evaluaciones válidas

Jason Chan y Dahwi Ahn de la Universidad de Iowa State encontraron que las calificaciones en línea y no supervisadas ...

Inteligencia Artificial

Conoce Quivr Un proyecto de código abierto diseñado para almacenar y recuperar información desestructurada como un segundo cerebro

Ha habido un crecimiento continuo en el dominio de OpenAI en los últimos años. Investigadores de muchas universidades...

Inteligencia Artificial

Potenciando la fiabilidad del aprendizaje automático Cómo la atipicidad mejora el rendimiento del modelo y la cuantificación de la incertidumbre

Un objeto se considera típico si se asemeja a otros elementos de su categoría. Por ejemplo, un pingüino es un ave inu...