Clave maestra para la separación de fuentes de audio Presentamos AudioSep para separar cualquier cosa que describas
Clave maestra para separar fuentes de audio. Presentamos AudioSep para separar cualquier cosa que describas.
La Análisis de Escena Auditiva Computacional (CASA, por sus siglas en inglés) es un campo dentro del procesamiento de señales de audio que se centra en separar y entender fuentes de sonido individuales en entornos auditivos complejos. Un nuevo enfoque de CASA es la separación de fuentes de audio mediante consulta de lenguaje (LASS, por sus siglas en inglés), introducido en InterSpeech 2022. El propósito de LASS es separar un sonido objetivo de una mezcla de audio basándose en una consulta de lenguaje natural, lo que resulta en una interfaz natural y escalable para aplicaciones de audio digital. A pesar de lograr un excelente rendimiento de separación en fuentes como instrumentos musicales y una pequeña clase de eventos de audio, los esfuerzos recientes en LASS aún no han logrado separar conceptos de audio en entornos de dominio abierto.
Para combatir estos desafíos, los investigadores han desarrollado el modelo de separación de audio AudioSep – “separate anything audio”, un modelo base que muestra una impresionante generalización de cero disparos en tareas y capacidades de separación sólidas en la ampliación del habla, separación de eventos de audio y separación de instrumentos musicales.
AudioSep consta de dos componentes clave: un codificador de texto y un modelo de separación. Se utiliza un codificador de texto CLIP o CLAP para extraer la incrustación de texto. A continuación, se utiliza un ResUNet de 30 capas que consta de 6 bloques de codificador y seis bloques de decodificador en la separación universal de sonido. Cada bloque de codificador consta de dos capas convolucionales con tamaños de núcleo de 3 × 3. El modelo AudioSep se entrena durante 1 millón de pasos en 8 tarjetas GPU Tesla V100.
- 5 Cosas que Necesitas Saber al Construir Aplicaciones de Aprendizaje Automático
- Investigadores de la Universidad de Boston lanzan la familia Platypus de LLMs afinados para lograr un refinamiento económico, rápido y potente de los LLMs base.
- IBM y NASA se unen para crear Earth Science GPT Descifrando los misterios de nuestro planeta
AudioSep se evalúa extensamente en sus capacidades en tareas como separación de eventos de audio, separación de instrumentos musicales y mejora del habla. Demostró un sólido rendimiento de separación y una impresionante capacidad de generalización de cero disparos utilizando subtítulos de audio o etiquetas de texto como consultas, superando sustancialmente a modelos de separación de sonido anteriores basados en audio y lenguaje.
Los investigadores utilizaron el modelo AudioSep-CLAP para visualizar espectrogramas de mezclas de audio y fuentes de audio objetivo de verdad, así como para separar fuentes utilizando consultas de texto de diversas fuentes de sonido (por ejemplo, evento de audio, voz). Se encontró que el patrón de espectrograma de la fuente separada era similar al de la fuente de verdad, lo cual fue consistente con los resultados experimentales objetivos.
Descubrieron que el uso de “subtítulos originales” como consultas de texto en lugar de “etiquetas de texto” mejoraba significativamente el rendimiento. Esto se debió al hecho de que los subtítulos anotados por humanos proporcionan descripciones más detalladas y precisas de la fuente de interés que las etiquetas de eventos de audio. A pesar de la naturaleza personalizada y la distribución variable de palabras de los subtítulos reanotados, los resultados obtenidos utilizando los “subtítulos reanotados” fueron algo más pobres que los obtenidos utilizando los “subtítulos originales”, aunque aún superaron los resultados obtenidos con la “etiqueta de texto”. Estos hallazgos demostraron la robustez y naturaleza prometedora de AudioSep en relación con los escenarios del mundo real y se ha convertido en la herramienta para separar cualquier cosa que le describamos.
El siguiente paso en el viaje de AudioSep es la separación a través de técnicas de aprendizaje no supervisado y la ampliación del trabajo actual a la separación mediante consultas de visión, separación mediante consultas de audio y tareas de separación de altavoces.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Reconocimiento del lenguaje hablado en Mozilla Common Voice Transformaciones de audio.
- Conoce a PUG una nueva investigación de IA de Meta AI sobre conjuntos de datos fotorrealistas y semánticamente controlables utilizando Unreal Engine para una evaluación de modelos robusta
- Investigadores de Salesforce presentan XGen-Image-1 un modelo de difusión latente de texto a imagen entrenado para reutilizar varios componentes preentrenados.
- Investigadores de UC Santa Cruz proponen una nueva herramienta de prueba de asociación de texto a imagen que cuantifica los estereotipos implícitos entre conceptos y valencia y los presentes en las imágenes
- Combinando los datos reales y las previsiones en una línea continua en Power BI
- Herramientas de IA para tu equipo de desarrollo ¿Adoptar o no adoptar?
- Una guía para construir modelos de datos en tiempo real con alto rendimiento