Conoce AudioLDM 2 Un marco de trabajo de IA único para la generación de audio que combina habla, música y efectos de sonido

AudioLDM 2 Un marco de IA único para generar audio con habla, música y efectos de sonido.

En un mundo cada vez más dependiente de los conceptos de Inteligencia Artificial y Aprendizaje Profundo, el ámbito de la generación de audio está experimentando una transformación revolucionaria con la introducción de AudioLDM 2. Este innovador marco ha allanado el camino para un método integrado de síntesis de audio, revolucionando la forma en que producimos y percibimos el sonido en una variedad de contextos, incluyendo el habla, la música y los efectos de sonido. La generación de información de audio dependiendo de variables particulares, como texto, fonemas o imágenes, se conoce como generación de audio. Esto incluye varios subdominios, incluyendo voz, música, efectos de sonido e incluso sonidos particulares como el violín o los pasos.

Cada subdominio tiene sus propios desafíos, y los trabajos anteriores a menudo han utilizado modelos especializados adaptados a esos desafíos. Los sesgos inductivos, que son limitaciones predeterminadas que dirigen el proceso de aprendizaje hacia la solución de un problema en particular, son sesgos específicos de la tarea en estos modelos. Estas limitaciones impiden el uso de la generación de audio en situaciones complicadas donde muchas formas de sonidos coexisten, como las secuencias de películas, a pesar de los grandes avances en modelos especializados. Se requiere una estrategia unificada que pueda proporcionar una variedad de señales de audio.

Para abordar estos problemas, un equipo de investigadores ha introducido AudioLDM 2, un marco único con condiciones ajustables que intenta generar cualquier tipo de audio sin depender de sesgos específicos del dominio. El equipo ha introducido el “lenguaje del audio” (LOA), que es una secuencia de vectores que representan la información semántica de un clip de audio. Este LOA permite la conversión de información que los humanos comprenden en un formato adecuado para producir audio dependiente de LOA, capturando así tanto características auditivas detalladas como información semántica de grano grueso.

El equipo ha sugerido construir sobre un Autoencoder de Máscara de Audio (AudioMAE) que ha sido pre-entrenado en una variedad de fuentes de audio para hacer esto. El marco de pre-entrenamiento produce la representación de audio óptima para tareas generativas, que incluye actividades reconstructivas y generativas. Luego, la información de condicionamiento como texto, audio y gráficos se convierte en la característica de AudioMAE utilizando un modelo de lenguaje basado en GPT. Dependiendo de la característica de AudioMAE, se sintetiza audio utilizando un modelo de difusión latente, y este modelo es susceptible de optimización auto-supervisada, lo que permite el pre-entrenamiento en datos de audio no etiquetados. Mientras se abordan las dificultades con los costos de computación y la acumulación de errores presentes en modelos de audio anteriores, la técnica de modelado del lenguaje aprovecha los desarrollos recientes en modelos de lenguaje.

En la evaluación, los experimentos han demostrado que AudioLDM 2 funciona en la vanguardia en tareas que requieren producción de texto a audio y texto a música. Supera a modelos de referencia potentes en tareas que requieren texto a habla, y para actividades como producir imágenes a sonidos, el marco puede incluir adicionalmente criterios para la modalidad visual. También se investigan características adicionales de aprendizaje en contexto para audio, música y voz. En comparación, AudioLDM 2 supera a AudioLDM en términos de calidad, adaptabilidad y producción de habla comprensible.

Las contribuciones clave han sido resumidas por el equipo de la siguiente manera.

  1. Se ha introducido un modelo innovador y adaptable de generación de audio, capaz de generar audio, música y habla comprensible con condiciones.
  1. El enfoque se ha construido sobre una representación universal de audio, permitiendo un extenso pre-entrenamiento auto-supervisado del modelo de difusión latente central sin necesidad de datos de audio anotados. Esta integración combina las fortalezas de los modelos auto-regresivos y de difusión latente.
  1. A través de experimentos, AudioLDM 2 se ha validado al alcanzar un rendimiento de vanguardia en la generación de texto a audio y texto a música. Ha logrado resultados competitivos en la generación de texto a habla comparables a los métodos actuales de vanguardia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Noticias de Inteligencia Artificial

Fármaco diseñado por inteligencia artificial listo para ensayos en humanos.

Una empresa biotecnológica, Insilico Medicine, respaldada por el conglomerado chino Fosun Group y el gigante de capit...

Inteligencia Artificial

Real AI gana el proyecto para construir el modelo de lenguaje abierto de Europa de inteligencia artificial

Durante la Conferencia de Ciencia de Datos 2023 en Belgrado, el jueves 23 de noviembre, se anunció que Real AI ganó e...

Inteligencia Artificial

Esta Investigación de IA presenta GAIA un referente que define el próximo hito en la competencia general de IA

“`html Investigadores de FAIR Meta, HuggingFace, AutoGPT y GenAI Meta abordan el problema de probar las capacid...

Inteligencia Artificial

Descubre RAGs una aplicación de Streamlit que te permite crear una tubería RAG a partir de una fuente de datos utilizando lenguaje natural.

Los GPT se destacan en inteligencia artificial en cuanto a tareas de NLP. No obstante, las tuberías construidas e imp...