Conoce a Ego-Exo4D Un conjunto de datos y una suite de referencia esenciales para apoyar la investigación sobre aprendizaje de video y percepción multimodal.

Ego-Exo4D Un conjunto de datos y una suite de referencia imprescindibles para la investigación en aprendizaje de video y percepción multimodal.

Hoy en día, la inteligencia artificial encuentra su aplicación en casi todos los campos imaginables. Definitivamente ha transformado nuestras vidas, optimizando procesos y mejorando la eficiencia de formas que no podríamos haber imaginado anteriormente. Sus capacidades podrían mejorarse aún más mediante avances en la comprensión de habilidades humanas, lo que podría facilitar numerosas aplicaciones como entrenamiento virtual, robótica e incluso redes sociales. Este artículo de investigación se centra en equipar mejor los sistemas de inteligencia artificial para mejorar su comprensión de las habilidades humanas.

Para capturar habilidades humanas, es necesario considerar tanto el punto de vista egocéntrico (en primera persona) como el exocéntrico (en tercera persona). Además, debe haber sinergia entre estos dos puntos de vista, ya que es esencial mapear el comportamiento de los demás en el nuestro para un mejor aprendizaje. Los conjuntos de datos existentes no son lo suficientemente competentes para aprovechar este potencial, ya que los conjuntos de datos ego-exo son muy limitados, de pequeña escala y a menudo carecen de sincronización entre cámaras. Para abordar este problema, los investigadores de Meta han introducido Ego-Exo4D, un conjunto de datos fundamental que es multimodal, de múltiples vistas, a gran escala y comprende escenas diversas de varias ciudades en todo el mundo.

Para una mejor comprensión, a veces es necesario considerar ambos puntos de vista, por ejemplo, un chef explicando el equipo desde una perspectiva en tercera persona y mostrando los movimientos de sus manos desde una perspectiva en primera persona. Por lo tanto, para lograr el objetivo de mejorar las habilidades humanas, Ego-Exo4D consiste en una vista en primera persona y múltiples vistas exocéntricas para cada secuencia. Además, los investigadores han asegurado que todas las vistas están sincronizadas en el tiempo. El conjunto de datos de múltiples vistas ha sido capturado utilizando un dispositivo de cámara ego-exo que captura tomas de cuerpo cercano y poses de cuerpo completo.

Ego-Exo4D se centra en actividades humanas habilidosas para capturar movimientos de postura corporal e interacción con objetos. El conjunto de datos consta de diversas actividades de diferentes ámbitos, como cocina, reparación de bicicletas, etc., y se captura en entornos auténticos en contraste con métodos anteriores que lo hacen en entornos de laboratorio. Para la recopilación de datos, los investigadores reclutaron a más de 800 participantes y aseguraron seguir rigurosos estándares de privacidad y ética.

Todos los videos del conjunto de datos están indexados en el tiempo, lo que significa que los usuarios de la cámara describen sus acciones, una tercera persona describe cada toma de cámara y una tercera persona critica el rendimiento del usuario de la cámara, lo que hace que el conjunto de datos se destaque de otros. Además, en ausencia de datos ego-exo para entrenamiento, se plantean importantes problemas de investigación en la percepción egocéntrica de actividades habilidosas. Por lo tanto, para abordar esto, los investigadores han ideado un conjunto de pruebas fundamentales diseñadas para proporcionar un punto de partida desde el cual la comunidad pueda desarrollarse. Han organizado estas pruebas en cuatro familias de tareas: relación, reconocimiento, habilidad y ego-postura.

En conclusión, Ego-Exo4D es un conjunto de datos completo de una escala sin precedentes que consta de actividades humanas habilidosas de diferentes ámbitos. Es un conjunto de datos único en su tipo que cubre las lagunas dejadas por sus predecesores. El conjunto de datos encuentra aplicaciones en muchos campos, como el reconocimiento de actividades, la estimación de postura corporal, el entrenamiento de IA, etc., y los investigadores creen que será la fuerza impulsora detrás de la investigación en actividades multimodales, ego-exo y más allá.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencias de la Computación

El Aprendizaje Automático Revela una Sorpresa del COVID

Investigadores que utilizaron el aprendizaje automático para analizar los casos diarios de neumonía en una unidad de ...

Aprendizaje Automático

Rompiendo barreras en el diseño de proteínas con un nuevo modelo de IA que comprende interacciones con cualquier tipo de molécula.

Después de la revolución iniciada por AlphaFold de Deepmind en biología estructural, el campo estrechamente relaciona...

Inteligencia Artificial

Investigadores de Google AI presentan MADLAD-400 un conjunto de datos de dominio web con tokens de 2.8T que abarca 419 idiomas.

En el campo en constante evolución del Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés), el desarro...

Inteligencia Artificial

Meta presenta AudioCraft una herramienta de IA para convertir texto en audio y música

Meta, el gigante tecnológico detrás de plataformas de redes sociales como Facebook, Instagram y WhatsApp, ha lanzado ...

Inteligencia Artificial

Conoce a Rodin un nuevo marco de inteligencia artificial (IA) para generar avatares digitales en 3D a partir de diversas fuentes de entrada.

Los modelos generativos se están convirtiendo en la solución por defecto para muchas tareas desafiantes en ciencias d...

Inteligencia Artificial

Superconductor LK-99 Tal vez un avance, tal vez solo una nueva esperanza

Expertos se oponen a afirmaciones extraordinarias sobre un superconductor a temperatura ambiente. Pero incluso un fra...