Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas

Clave maestra para separar fuentes de audio. Presentamos AudioSep para separar cualquier cosa que describas.

La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de señales de audio que se centra en separar y entender fuentes de sonido individuales en entornos auditivos complejos. Un nuevo enfoque de CASA es la separación de fuentes de audio mediante consulta de lenguaje (LASS, por sus siglas en inglés), introducido en InterSpeech 2022. El propósito de LASS es separar un sonido objetivo de una mezcla de audio basándose en una consulta de lenguaje natural, lo que resulta en una interfaz natural y escalable para aplicaciones de audio digital. A pesar de lograr un excelente rendimiento de separación en fuentes como instrumentos musicales y una pequeña clase de eventos de audio, los esfuerzos recientes en LASS aún no han logrado separar conceptos de audio en entornos de dominio abierto.

Para combatir estos desafíos, los investigadores han desarrollado el modelo de separación de audio AudioSep – “separate anything audio”, un modelo base que muestra una impresionante generalización de cero disparos en tareas y capacidades de separación sólidas en la ampliación del habla, separación de eventos de audio y separación de instrumentos musicales.

AudioSep consta de dos componentes clave: un codificador de texto y un modelo de separación. Se utiliza un codificador de texto CLIP o CLAP para extraer la incrustación de texto. A continuación, se utiliza un ResUNet de 30 capas que consta de 6 bloques de codificador y seis bloques de decodificador en la separación universal de sonido. Cada bloque de codificador consta de dos capas convolucionales con tamaños de núcleo de 3 × 3. El modelo AudioSep se entrena durante 1 millón de pasos en 8 tarjetas GPU Tesla V100.

AudioSep se evalúa extensamente en sus capacidades en tareas como separación de eventos de audio, separación de instrumentos musicales y mejora del habla. Demostró un sólido rendimiento de separación y una impresionante capacidad de generalización de cero disparos utilizando subtítulos de audio o etiquetas de texto como consultas, superando sustancialmente a modelos de separación de sonido anteriores basados en audio y lenguaje.

Los investigadores utilizaron el modelo AudioSep-CLAP para visualizar espectrogramas de mezclas de audio y fuentes de audio objetivo de verdad, así como para separar fuentes utilizando consultas de texto de diversas fuentes de sonido (por ejemplo, evento de audio, voz). Se encontró que el patrón de espectrograma de la fuente separada era similar al de la fuente de verdad, lo cual fue consistente con los resultados experimentales objetivos.

Descubrieron que el uso de “subtítulos originales” como consultas de texto en lugar de “etiquetas de texto” mejoraba significativamente el rendimiento. Esto se debió al hecho de que los subtítulos anotados por humanos proporcionan descripciones más detalladas y precisas de la fuente de interés que las etiquetas de eventos de audio. A pesar de la naturaleza personalizada y la distribución variable de palabras de los subtítulos reanotados, los resultados obtenidos utilizando los “subtítulos reanotados” fueron algo más pobres que los obtenidos utilizando los “subtítulos originales”, aunque aún superaron los resultados obtenidos con la “etiqueta de texto”. Estos hallazgos demostraron la robustez y naturaleza prometedora de AudioSep en relación con los escenarios del mundo real y se ha convertido en la herramienta para separar cualquier cosa que le describamos.

El siguiente paso en el viaje de AudioSep es la separación a través de técnicas de aprendizaje no supervisado y la ampliación del trabajo actual a la separación mediante consultas de visión, separación mediante consultas de audio y tareas de separación de altavoces.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Implementar una solución de seguimiento de múltiples objetos en un conjunto de datos personalizado con Amazon SageMaker.

La demanda de seguimiento de múltiples objetos (MOT) en el análisis de video ha aumentado significativamente en mucha...

Inteligencia Artificial

xAI de Elon Musk entrenado con el Feed de Twitter

Elon Musk, el visionario detrás de empresas como Tesla y SpaceX, ha vuelto a centrar su atención en el campo de la in...

Inteligencia Artificial

Investigadores de Microsoft proponen Síntesis Visual Responsable de Vocabulario Abierto (ORES) con el Marco de Intervención de Dos Etapas

Los modelos de síntesis visual pueden producir imágenes cada vez más realistas gracias al avance del entrenamiento de...

Inteligencia Artificial

¿Qué es la innatismo y importa para la inteligencia artificial? (Parte 2)

La cuestión de la innatitud, tanto en biología como en inteligencia artificial, es crucial para el futuro de la IA si...

Inteligencia Artificial

Principal Financial Group utiliza la solución de análisis posterior a la llamada de AWS para extraer información sobre los clientes omnicanal

Una empresa de servicios financieros establecida con más de 140 años en el negocio, Principal es líder mundial en ges...

Ciencia de Datos

Investigadores enseñan a una IA a escribir mejores leyendas de gráficos

Un nuevo conjunto de datos puede ayudar a los científicos a desarrollar sistemas automáticos que generen leyendas más...