Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos
Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Incorporación de Inteligencia Artificial que Genera un Audio Espacial 3D Preciso para Cuerpos Humanos Completos
El constante desarrollo de sistemas inteligentes que replican y comprenden el comportamiento humano ha llevado a avances significativos en los campos complementarios de la Visión por Computadora y la Inteligencia Artificial (IA). Los modelos de aprendizaje automático están ganando una inmensa popularidad al acortar la brecha entre la realidad y la virtualidad. Aunque la modelación tridimensional del cuerpo humano ha recibido mucha atención en el campo de la visión por computadora, la tarea de modelar el aspecto acústico y producir audio espacial tridimensional a partir del habla y el movimiento corporal aún es un tema de discusión. Siempre se ha enfocado en la fidelidad visual de las representaciones artificiales del cuerpo humano.
La percepción humana es multimodal por naturaleza, ya que incorpora tanto señales auditivas como visuales en la comprensión del entorno. Es esencial simular un sonido tridimensional que se corresponda con la imagen visual de manera precisa para crear una sensación de presencia e inmersión en un mundo tridimensional. Para abordar estos desafíos, un equipo de investigadores del Laboratorio de IA de Shanghai y Meta Reality Labs Research ha presentado un modelo que produce representaciones precisas de audio espacial tridimensional para cuerpos humanos completos.
El equipo ha compartido que la técnica propuesta utiliza micrófonos montados en la cabeza y datos de postura corporal para sintetizar sonido espacial tridimensional de manera precisa. El estudio de caso se enfoca en un escenario de telepresencia que combina realidad aumentada y realidad virtual (AR/VR) en el que los usuarios se comunican utilizando avatares de cuerpo completo. Se han utilizado datos de audio egocéntricos de los micrófonos montados en la cabeza y datos de postura corporal que se utilizan para animar el avatar como ejemplos de entrada.
- Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.
- Desbloqueando el potencial de la Observabilidad con IA
- Codificación eficiente en ciencia de datos fácil depuración de operaciones encadenadas en Pandas
Los métodos actuales de espacialización del sonido presuponen que se conoce la fuente de sonido y que se captura allí sin alteraciones. El enfoque sugerido resuelve estos problemas utilizando datos de postura corporal para entrenar una red multimodal que distingue entre las fuentes de diversos ruidos y produce señales espacializadas de manera precisa. El área de sonido que rodea el cuerpo es la salida, y los datos de audio de siete micrófonos montados en la cabeza y la postura del sujeto conforman la entrada.
El equipo ha realizado una evaluación empírica que demuestra que el modelo puede producir de manera confiable campos de sonido resultantes de los movimientos corporales cuando se entrena con una función de pérdida adecuada. El código y el conjunto de datos del modelo están disponibles para uso público en Internet, promoviendo la apertura, la repetibilidad y el desarrollo adicional en este campo. El repositorio de GitHub se puede acceder en https://github.com/facebookresearch/SoundingBodies.
El equipo ha resumido las principales contribuciones del trabajo de la siguiente manera.
- Se ha introducido una técnica única que utiliza micrófonos montados en la cabeza y posturas corporales para renderizar campos de sonido tridimensional realistas para cuerpos humanos.
- Se ha compartido una evaluación empírica exhaustiva que destaca la importancia de la postura corporal y una función de pérdida bien pensada.
- El equipo ha compartido un nuevo conjunto de datos que han producido que combina datos tridimensionales del cuerpo humano con grabaciones de audio espacial de una matriz de 345 micrófonos.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Google AI presenta AltUp
- Detecta contenido perjudicial utilizando la detección de toxicidad de Amazon Comprehend
- El Lado Oscuro de la IA – ¿Cómo pueden ayudar los creadores?!
- Modelando el Problema del Viajante de Comercio desde los principios fundamentales
- Todo lo que necesitas saber para desarrollar usando modelos de lenguaje grandes
- Una introducción al Deep Learning para datos secuenciales
- Buscar semántica moderna para imágenes