Investigadores de China presentan un conjunto de datos de múltiples vistas a gran escala y del mundo real llamado ‘FreeMan

Investigadores chinos presentan conjunto de datos llamado 'FreeMan'.

Estimar la estructura 3D del cuerpo humano a partir de escenas del mundo real es una tarea desafiante con implicaciones significativas para campos como la inteligencia artificial, los gráficos y la interacción humano-robot. Los conjuntos de datos existentes para la estimación de la pose humana 3D son limitados porque a menudo se recopilan en condiciones controladas con fondos estáticos, que no representan la variabilidad de los escenarios del mundo real. Esta limitación dificulta el desarrollo de modelos precisos para aplicaciones del mundo real.

Conjuntos de datos existentes como Human3.6M y HuMMan se utilizan ampliamente para la estimación de la pose humana 3D, pero se recopilan en entornos de laboratorio controlados, que no capturan adecuadamente la complejidad de los entornos del mundo real. Estos conjuntos de datos son limitados en términos de diversidad de escenas, acciones humanas y escalabilidad. Los investigadores han propuesto varios modelos para la estimación de la pose humana 3D, pero su efectividad se ve obstaculizada a menudo cuando se aplican a escenarios del mundo real debido a las limitaciones de los conjuntos de datos existentes.

Un equipo de investigadores de China introdujo “FreeMan”, un nuevo conjunto de datos multivista a gran escala diseñado para abordar las limitaciones de los conjuntos de datos existentes para la estimación de la pose humana 3D en escenarios del mundo real. FreeMan es una contribución significativa que tiene como objetivo facilitar el desarrollo de modelos más precisos y robustos para esta tarea crucial. 

FreeMan es un conjunto de datos completo que comprende 11 millones de fotogramas de 8,000 secuencias, capturadas con 8 teléfonos inteligentes sincronizados en diversos escenarios. Cubre 40 sujetos en 10 escenas diferentes, incluidos entornos tanto en interiores como en exteriores con condiciones de iluminación variables. Es importante destacar que FreeMan introduce variabilidad en los parámetros de la cámara y las escalas del cuerpo humano, lo que lo hace más representativo de los escenarios del mundo real. El grupo de investigación desarrolló un proceso de anotación automatizado para crear este conjunto de datos que genera de manera eficiente anotaciones 3D precisas a partir de los datos recopilados. Este proceso implica la detección de personas, la detección de puntos clave 2D, la estimación de la pose 3D y la anotación de malla. El conjunto de datos resultante es valioso para múltiples tareas, incluyendo la estimación 3D monocular, la elevación 2D a 3D, la estimación 3D multivista y la representación neuronal de sujetos humanos.

Los investigadores proporcionaron evaluaciones exhaustivas de referencia para varias tareas utilizando FreeMan. Compararon el rendimiento de los modelos entrenados en FreeMan con los entrenados en conjuntos de datos existentes como Human3.6M y HuMMan. Es importante destacar que los modelos entrenados en FreeMan mostraron un rendimiento significativamente mejor cuando se probaron en el conjunto de datos 3DPW, resaltando la superior generalizabilidad de FreeMan a escenarios del mundo real.

En experimentos de estimación de la pose humana 3D multivista, los modelos entrenados en FreeMan demostraron mejores habilidades de generalización en comparación con los entrenados en Human3.6M cuando se probaron en conjuntos de datos de dominios cruzados. Los resultados mostraron consistentemente las ventajas de la diversidad y escala de FreeMan.

En experimentos de elevación de pose 2D a 3D, el desafío de FreeMan fue evidente, ya que los modelos entrenados en este conjunto de datos enfrentaron un nivel de dificultad mayor que aquellos entrenados en otros conjuntos de datos. Sin embargo, cuando los modelos se entrenaron en todo el conjunto de datos de entrenamiento de FreeMan, su rendimiento mejoró, lo que demuestra el potencial del conjunto de datos para mejorar el rendimiento del modelo con un entrenamiento a mayor escala.

En conclusión, el grupo de investigación ha presentado FreeMan, un conjunto de datos innovador para la estimación de la pose humana 3D en escenarios del mundo real. Han abordado varias limitaciones de los conjuntos de datos existentes al proporcionar diversidad en escenas, acciones humanas, parámetros de la cámara y escalas del cuerpo humano. El proceso de anotación automatizado y la recopilación de datos a gran escala de FreeMan lo convierten en un recurso valioso para el desarrollo de algoritmos más precisos y robustos para la estimación de la pose humana 3D. El artículo de investigación destaca las habilidades superiores de generalización de FreeMan en comparación con los conjuntos de datos existentes, mostrando su potencial para mejorar el rendimiento de los modelos en aplicaciones del mundo real. Se espera que la disponibilidad de FreeMan impulse los avances en modelado humano, visión por computadora e interacción humano-robot, cerrando la brecha entre las condiciones de laboratorio controladas y los escenarios del mundo real.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El 40% de la fuerza laboral se verá afectada por la IA en 3 años

¿Qué debemos esperar en los próximos 3 años debido al auge de la inteligencia artificial generativa?

Inteligencia Artificial

Conoce FlexGen un motor de generación de alto rendimiento para ejecutar grandes modelos de lenguaje (LLM) con memoria limitada de GPU.

Recientemente, los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han mostrado un rendimiento impresion...

Inteligencia Artificial

Superando las Alucinaciones en IA Cómo Factually Augmented RLHF Optimiza la Coherencia de Visión y Lenguaje en Modelos Multimodales Grandes

Mediante un entrenamiento adicional utilizando combinaciones de imágenes y texto o ajustándolas mediante conjuntos de...

Inteligencia Artificial

Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos

Cada vez se crean y almacenan más documentos por parte de las empresas en la era digital de hoy en día. Aunque estos ...

Inteligencia Artificial

Un hombre con Parkinson recuperó la capacidad de caminar, gracias a un implante espinal

El implante envía ráfagas de señales eléctricas, estimulando su médula espinal para que sus músculos de la pierna se ...