Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Conoce AUDIT, un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente.

Los modelos de difusión están avanzando rápidamente y facilitando la vida. Desde el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural hasta la Visión por Computadora, los modelos de difusión han mostrado resultados prometedores en casi todos los dominios. Estos modelos son un desarrollo reciente en IA generativa y son un tipo de modelo generativo profundo que se puede usar para generar muestras realistas de distribuciones complejas.

Recientemente, los investigadores han presentado un nuevo modelo de difusión que puede editar fácilmente clips de audio. Llamado AUDIT, este modelo latente de difusión es un modelo de edición de audio guiado por instrucciones. La edición de audio implica principalmente cambiar una señal de audio de entrada para producir una salida de audio editada. Esto incluye tareas como agregar efectos de sonido de fondo, reemplazar música de fondo, reparar audio incompleto o mejorar audio de baja calidad. AUDIT toma tanto el audio de entrada como las instrucciones humanas como condiciones y genera la salida de audio editada.

Los investigadores han utilizado datos de tripleta para entrenar el modelo de difusión de edición de audio de manera supervisada. Los datos de tripleta utilizados son instrucción, audio de entrada y audio de salida. El audio de entrada se ha utilizado directamente como entrada condicional para garantizar la consistencia en los segmentos de audio sin editar. Las instrucciones de edición también se han utilizado directamente como guía de texto para hacer que el modelo sea más flexible y adecuado para escenarios del mundo real.

El equipo de investigadores detrás de AUDIT ha resumido sus contribuciones de la siguiente manera:

  1. AUDIT es el primer desarrollo en el cual se ha entrenado un modelo de difusión para la edición de audio, que toma instrucciones de texto humanas como condición.
  2. Se ha diseñado un marco de construcción de datos para entrenar AUDIT de manera supervisada.
  3. AUDIT es capaz de maximizar la preservación de los segmentos de audio que no requieren edición.
  4. AUDIT funciona bien con instrucciones simples como guía de texto sin necesidad de una descripción detallada del objetivo de la edición.
  5. AUDIT ha logrado resultados destacados tanto en métricas objetivas como subjetivas para varias tareas de edición de audio.

El equipo ha compartido algunos ejemplos donde AUDIT ha tenido un gran desempeño y ha editado audios de manera precisa. Estos incluyen agregar el sonido de bocinas de automóviles en el audio, reemplazar el sonido de risa con el sonido de una trompeta, eliminar el sonido de una mujer hablando del audio de alguien silbando, entre otros. AUDIT tuvo un rendimiento extremadamente bueno en tareas de edición de audio y mostró excelentes resultados en métricas objetivas y subjetivas, incluyendo las siguientes tareas:

  • Agregar un sonido a un clip de audio.
  • Eliminar o quitar un sonido de un clip de audio.
  • Sustituir un evento de sonido en el audio de entrada por otro sonido.
  • Audio inpainting: completar un segmento de audio enmascarado basado en el contexto o la indicación textual proporcionada.
  • Tarea de super-resolución en la cual se convierte audio de baja resolución en audio de alta resolución.

En conclusión, AUDIT parece ser un enfoque prometedor para el futuro que puede simplificar la edición de audio de manera flexible y efectiva siguiendo instrucciones humanas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Calculadora de números determina si las ballenas están actuando de manera extraña

Los investigadores aplicaron técnicas estadísticas para diferenciar el comportamiento natural del afectado entre las ...

Inteligencia Artificial

Investigadores de CMU proponen GILL un método de IA para fusionar LLMs con modelos de codificador y decodificador de imágenes

Con el lanzamiento del nuevo GPT 4 de OpenAI, se ha introducido la multimodalidad en los Modelos de Lenguaje Grandes....

Ciencias de la Computación

Sitios web basura llenos de texto generado por inteligencia artificial están generando dinero a través de anuncios programáticos.

Más de 140 marcas están anunciando en sitios web de granjas de contenido de baja calidad, y el problema está creciend...

Inteligencia Artificial

Investigadores de Google presentan una biblioteca de código abierto en JAX para el aprendizaje profundo en superficies esféricas

El aprendizaje profundo, un subconjunto del aprendizaje automático, aprende automáticamente representaciones compleja...