Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Incorporación de Inteligencia Artificial que Genera un Audio Espacial 3D Preciso para Cuerpos Humanos Completos

El constante desarrollo de sistemas inteligentes que replican y comprenden el comportamiento humano ha llevado a avances significativos en los campos complementarios de la Visión por Computadora y la Inteligencia Artificial (IA). Los modelos de aprendizaje automático están ganando una inmensa popularidad al acortar la brecha entre la realidad y la virtualidad. Aunque la modelación tridimensional del cuerpo humano ha recibido mucha atención en el campo de la visión por computadora, la tarea de modelar el aspecto acústico y producir audio espacial tridimensional a partir del habla y el movimiento corporal aún es un tema de discusión. Siempre se ha enfocado en la fidelidad visual de las representaciones artificiales del cuerpo humano.

La percepción humana es multimodal por naturaleza, ya que incorpora tanto señales auditivas como visuales en la comprensión del entorno. Es esencial simular un sonido tridimensional que se corresponda con la imagen visual de manera precisa para crear una sensación de presencia e inmersión en un mundo tridimensional. Para abordar estos desafíos, un equipo de investigadores del Laboratorio de IA de Shanghai y Meta Reality Labs Research ha presentado un modelo que produce representaciones precisas de audio espacial tridimensional para cuerpos humanos completos.

El equipo ha compartido que la técnica propuesta utiliza micrófonos montados en la cabeza y datos de postura corporal para sintetizar sonido espacial tridimensional de manera precisa. El estudio de caso se enfoca en un escenario de telepresencia que combina realidad aumentada y realidad virtual (AR/VR) en el que los usuarios se comunican utilizando avatares de cuerpo completo. Se han utilizado datos de audio egocéntricos de los micrófonos montados en la cabeza y datos de postura corporal que se utilizan para animar el avatar como ejemplos de entrada.

Los métodos actuales de espacialización del sonido presuponen que se conoce la fuente de sonido y que se captura allí sin alteraciones. El enfoque sugerido resuelve estos problemas utilizando datos de postura corporal para entrenar una red multimodal que distingue entre las fuentes de diversos ruidos y produce señales espacializadas de manera precisa. El área de sonido que rodea el cuerpo es la salida, y los datos de audio de siete micrófonos montados en la cabeza y la postura del sujeto conforman la entrada.

El equipo ha realizado una evaluación empírica que demuestra que el modelo puede producir de manera confiable campos de sonido resultantes de los movimientos corporales cuando se entrena con una función de pérdida adecuada. El código y el conjunto de datos del modelo están disponibles para uso público en Internet, promoviendo la apertura, la repetibilidad y el desarrollo adicional en este campo. El repositorio de GitHub se puede acceder en https://github.com/facebookresearch/SoundingBodies.

El equipo ha resumido las principales contribuciones del trabajo de la siguiente manera.

Se ha introducido una técnica única que utiliza micrófonos montados en la cabeza y posturas corporales para renderizar campos de sonido tridimensional realistas para cuerpos humanos.

Se ha compartido una evaluación empírica exhaustiva que destaca la importancia de la postura corporal y una función de pérdida bien pensada.

El equipo ha compartido un nuevo conjunto de datos que han producido que combina datos tridimensionales del cuerpo humano con grabaciones de audio espacial de una matriz de 345 micrófonos.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

Esta investigación de IA de Adobe propone un Modelo de Reconstrucción Grande (LRM) que predice el modelo 3D de un objeto a partir de una sola imagen de entrada en 5 segundos’.

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

Was this article helpful?

Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.

Esta investigación de IA de Adobe propone un Modelo de Reconstrucción Grande (LRM) que predice el modelo 3D de un objeto a partir de una sola imagen de entrada en 5 segundos’.

Inteligencia Artificial

Conoce a GPS-Gaussian Un nuevo enfoque de inteligencia artificial para sintetizar nuevas perspectivas de un personaje de forma en tiempo real.

Google DeepMind está trabajando en un algoritmo para superar a ChatGPT.

Sensor de alcohol móvil para la muñeca podría impulsar la investigación sobre el consumo de alcohol.

Conoce DiffusionDet Un Modelo de Inteligencia Artificial (IA) Que Utiliza Difusión para la Detección de Objetos

DeepMind presenta AlphaDev un agente de aprendizaje por refuerzo profundo que descubre algoritmos de clasificación más rápidos desde cero.

Utilizando el lenguaje para dar a los robots una mejor comprensión del mundo abierto