Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Incorporación de Inteligencia Artificial que Genera un Audio Espacial 3D Preciso para Cuerpos Humanos Completos

El constante desarrollo de sistemas inteligentes que replican y comprenden el comportamiento humano ha llevado a avances significativos en los campos complementarios de la Visión por Computadora y la Inteligencia Artificial (IA). Los modelos de aprendizaje automático están ganando una inmensa popularidad al acortar la brecha entre la realidad y la virtualidad. Aunque la modelación tridimensional del cuerpo humano ha recibido mucha atención en el campo de la visión por computadora, la tarea de modelar el aspecto acústico y producir audio espacial tridimensional a partir del habla y el movimiento corporal aún es un tema de discusión. Siempre se ha enfocado en la fidelidad visual de las representaciones artificiales del cuerpo humano.

La percepción humana es multimodal por naturaleza, ya que incorpora tanto señales auditivas como visuales en la comprensión del entorno. Es esencial simular un sonido tridimensional que se corresponda con la imagen visual de manera precisa para crear una sensación de presencia e inmersión en un mundo tridimensional. Para abordar estos desafíos, un equipo de investigadores del Laboratorio de IA de Shanghai y Meta Reality Labs Research ha presentado un modelo que produce representaciones precisas de audio espacial tridimensional para cuerpos humanos completos.

El equipo ha compartido que la técnica propuesta utiliza micrófonos montados en la cabeza y datos de postura corporal para sintetizar sonido espacial tridimensional de manera precisa. El estudio de caso se enfoca en un escenario de telepresencia que combina realidad aumentada y realidad virtual (AR/VR) en el que los usuarios se comunican utilizando avatares de cuerpo completo. Se han utilizado datos de audio egocéntricos de los micrófonos montados en la cabeza y datos de postura corporal que se utilizan para animar el avatar como ejemplos de entrada.

Los métodos actuales de espacialización del sonido presuponen que se conoce la fuente de sonido y que se captura allí sin alteraciones. El enfoque sugerido resuelve estos problemas utilizando datos de postura corporal para entrenar una red multimodal que distingue entre las fuentes de diversos ruidos y produce señales espacializadas de manera precisa. El área de sonido que rodea el cuerpo es la salida, y los datos de audio de siete micrófonos montados en la cabeza y la postura del sujeto conforman la entrada.

El equipo ha realizado una evaluación empírica que demuestra que el modelo puede producir de manera confiable campos de sonido resultantes de los movimientos corporales cuando se entrena con una función de pérdida adecuada. El código y el conjunto de datos del modelo están disponibles para uso público en Internet, promoviendo la apertura, la repetibilidad y el desarrollo adicional en este campo. El repositorio de GitHub se puede acceder en https://github.com/facebookresearch/SoundingBodies

El equipo ha resumido las principales contribuciones del trabajo de la siguiente manera. 

  1. Se ha introducido una técnica única que utiliza micrófonos montados en la cabeza y posturas corporales para renderizar campos de sonido tridimensional realistas para cuerpos humanos. 
  1. Se ha compartido una evaluación empírica exhaustiva que destaca la importancia de la postura corporal y una función de pérdida bien pensada.
  1. El equipo ha compartido un nuevo conjunto de datos que han producido que combina datos tridimensionales del cuerpo humano con grabaciones de audio espacial de una matriz de 345 micrófonos. 

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Una función esencial de los sistemas de cámaras de múltiples vistas es la síntesis de vistas novedosas (NVS), que int...

Aprendizaje Automático

Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.

En un anuncio innovador, Demis Hassabis, el CEO del laboratorio de IA DeepMind de Google, presentó el desarrollo de u...

Investigación

Sensor de alcohol móvil para la muñeca podría impulsar la investigación sobre el consumo de alcohol.

Científicos de la Universidad Estatal de Pensilvania y de la Universidad de Carolina del Norte crearon un sensor de m...

Inteligencia Artificial

Conoce DiffusionDet Un Modelo de Inteligencia Artificial (IA) Que Utiliza Difusión para la Detección de Objetos

La detección de objetos es una técnica poderosa para identificar objetos en imágenes y videos. Gracias al aprendizaje...

Aprendizaje Automático

DeepMind presenta AlphaDev un agente de aprendizaje por refuerzo profundo que descubre algoritmos de clasificación más rápidos desde cero.

Desde la Inteligencia Artificial y el Análisis de Datos hasta la Criptografía y la Optimización, los algoritmos juega...

Inteligencia Artificial

Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto

El método de Campos de Características para la Manipulación Robótica ayuda a los robots a identificar objetos cercano...