Investigadores de China presentan un conjunto de datos de múltiples vistas a gran escala y del mundo real llamado ‘FreeMan
Investigadores chinos presentan conjunto de datos llamado 'FreeMan'.
Estimar la estructura 3D del cuerpo humano a partir de escenas del mundo real es una tarea desafiante con implicaciones significativas para campos como la inteligencia artificial, los gráficos y la interacción humano-robot. Los conjuntos de datos existentes para la estimación de la pose humana 3D son limitados porque a menudo se recopilan en condiciones controladas con fondos estáticos, que no representan la variabilidad de los escenarios del mundo real. Esta limitación dificulta el desarrollo de modelos precisos para aplicaciones del mundo real.
Conjuntos de datos existentes como Human3.6M y HuMMan se utilizan ampliamente para la estimación de la pose humana 3D, pero se recopilan en entornos de laboratorio controlados, que no capturan adecuadamente la complejidad de los entornos del mundo real. Estos conjuntos de datos son limitados en términos de diversidad de escenas, acciones humanas y escalabilidad. Los investigadores han propuesto varios modelos para la estimación de la pose humana 3D, pero su efectividad se ve obstaculizada a menudo cuando se aplican a escenarios del mundo real debido a las limitaciones de los conjuntos de datos existentes.
Un equipo de investigadores de China introdujo “FreeMan”, un nuevo conjunto de datos multivista a gran escala diseñado para abordar las limitaciones de los conjuntos de datos existentes para la estimación de la pose humana 3D en escenarios del mundo real. FreeMan es una contribución significativa que tiene como objetivo facilitar el desarrollo de modelos más precisos y robustos para esta tarea crucial.
- Deci AI presenta DeciDiffusion 1.0 un modelo de difusión latente de texto a imagen de 820 millones de parámetros y 3 veces más rápido que la difusión estable.
- Investigadores de UCSD liberan Graphologue de código abierto una técnica única de IA que transforma las respuestas de modelos de lenguaje grandes como GPT-4 en diagramas interactivos en tiempo real.
- Hugging Face es el nuevo GitHub para LLMs
FreeMan es un conjunto de datos completo que comprende 11 millones de fotogramas de 8,000 secuencias, capturadas con 8 teléfonos inteligentes sincronizados en diversos escenarios. Cubre 40 sujetos en 10 escenas diferentes, incluidos entornos tanto en interiores como en exteriores con condiciones de iluminación variables. Es importante destacar que FreeMan introduce variabilidad en los parámetros de la cámara y las escalas del cuerpo humano, lo que lo hace más representativo de los escenarios del mundo real. El grupo de investigación desarrolló un proceso de anotación automatizado para crear este conjunto de datos que genera de manera eficiente anotaciones 3D precisas a partir de los datos recopilados. Este proceso implica la detección de personas, la detección de puntos clave 2D, la estimación de la pose 3D y la anotación de malla. El conjunto de datos resultante es valioso para múltiples tareas, incluyendo la estimación 3D monocular, la elevación 2D a 3D, la estimación 3D multivista y la representación neuronal de sujetos humanos.
Los investigadores proporcionaron evaluaciones exhaustivas de referencia para varias tareas utilizando FreeMan. Compararon el rendimiento de los modelos entrenados en FreeMan con los entrenados en conjuntos de datos existentes como Human3.6M y HuMMan. Es importante destacar que los modelos entrenados en FreeMan mostraron un rendimiento significativamente mejor cuando se probaron en el conjunto de datos 3DPW, resaltando la superior generalizabilidad de FreeMan a escenarios del mundo real.
En experimentos de estimación de la pose humana 3D multivista, los modelos entrenados en FreeMan demostraron mejores habilidades de generalización en comparación con los entrenados en Human3.6M cuando se probaron en conjuntos de datos de dominios cruzados. Los resultados mostraron consistentemente las ventajas de la diversidad y escala de FreeMan.
En experimentos de elevación de pose 2D a 3D, el desafío de FreeMan fue evidente, ya que los modelos entrenados en este conjunto de datos enfrentaron un nivel de dificultad mayor que aquellos entrenados en otros conjuntos de datos. Sin embargo, cuando los modelos se entrenaron en todo el conjunto de datos de entrenamiento de FreeMan, su rendimiento mejoró, lo que demuestra el potencial del conjunto de datos para mejorar el rendimiento del modelo con un entrenamiento a mayor escala.
En conclusión, el grupo de investigación ha presentado FreeMan, un conjunto de datos innovador para la estimación de la pose humana 3D en escenarios del mundo real. Han abordado varias limitaciones de los conjuntos de datos existentes al proporcionar diversidad en escenas, acciones humanas, parámetros de la cámara y escalas del cuerpo humano. El proceso de anotación automatizado y la recopilación de datos a gran escala de FreeMan lo convierten en un recurso valioso para el desarrollo de algoritmos más precisos y robustos para la estimación de la pose humana 3D. El artículo de investigación destaca las habilidades superiores de generalización de FreeMan en comparación con los conjuntos de datos existentes, mostrando su potencial para mejorar el rendimiento de los modelos en aplicaciones del mundo real. Se espera que la disponibilidad de FreeMan impulse los avances en modelado humano, visión por computadora e interacción humano-robot, cerrando la brecha entre las condiciones de laboratorio controladas y los escenarios del mundo real.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Aprendizaje de Diferencia Temporal y la importancia de la exploración Una guía ilustrada
- 5 Mejores Certificaciones de Ciencia de Datos en Estados Unidos
- Investigación en Stanford presenta PointOdyssey un conjunto de datos sintético a gran escala para el seguimiento de puntos a largo plazo
- Google DeepMind presenta una nueva herramienta de IA que clasifica los efectos de 71 millones de mutaciones ‘missense
- 5 Proyectos Gratuitos de Ciencia de Datos con Soluciones
- Plan de estudios de Ciencia de Datos para autodidactas
- Desbloqueando la optimización de la batería Cómo el aprendizaje automático y la microscopía de rayos X a escala nanométrica podrían revolucionar las baterías de litio