Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Conoce AUDIT, un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente.

Los modelos de difusión están avanzando rápidamente y facilitando la vida. Desde el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural hasta la Visión por Computadora, los modelos de difusión han mostrado resultados prometedores en casi todos los dominios. Estos modelos son un desarrollo reciente en IA generativa y son un tipo de modelo generativo profundo que se puede usar para generar muestras realistas de distribuciones complejas.

Recientemente, los investigadores han presentado un nuevo modelo de difusión que puede editar fácilmente clips de audio. Llamado AUDIT, este modelo latente de difusión es un modelo de edición de audio guiado por instrucciones. La edición de audio implica principalmente cambiar una señal de audio de entrada para producir una salida de audio editada. Esto incluye tareas como agregar efectos de sonido de fondo, reemplazar música de fondo, reparar audio incompleto o mejorar audio de baja calidad. AUDIT toma tanto el audio de entrada como las instrucciones humanas como condiciones y genera la salida de audio editada.

Los investigadores han utilizado datos de tripleta para entrenar el modelo de difusión de edición de audio de manera supervisada. Los datos de tripleta utilizados son instrucción, audio de entrada y audio de salida. El audio de entrada se ha utilizado directamente como entrada condicional para garantizar la consistencia en los segmentos de audio sin editar. Las instrucciones de edición también se han utilizado directamente como guía de texto para hacer que el modelo sea más flexible y adecuado para escenarios del mundo real.

El equipo de investigadores detrás de AUDIT ha resumido sus contribuciones de la siguiente manera:

AUDIT es el primer desarrollo en el cual se ha entrenado un modelo de difusión para la edición de audio, que toma instrucciones de texto humanas como condición.
Se ha diseñado un marco de construcción de datos para entrenar AUDIT de manera supervisada.
AUDIT es capaz de maximizar la preservación de los segmentos de audio que no requieren edición.
AUDIT funciona bien con instrucciones simples como guía de texto sin necesidad de una descripción detallada del objetivo de la edición.
AUDIT ha logrado resultados destacados tanto en métricas objetivas como subjetivas para varias tareas de edición de audio.

El equipo ha compartido algunos ejemplos donde AUDIT ha tenido un gran desempeño y ha editado audios de manera precisa. Estos incluyen agregar el sonido de bocinas de automóviles en el audio, reemplazar el sonido de risa con el sonido de una trompeta, eliminar el sonido de una mujer hablando del audio de alguien silbando, entre otros. AUDIT tuvo un rendimiento extremadamente bueno en tareas de edición de audio y mostró excelentes resultados en métricas objetivas y subjetivas, incluyendo las siguientes tareas:

Agregar un sonido a un clip de audio.
Eliminar o quitar un sonido de un clip de audio.
Sustituir un evento de sonido en el audio de entrada por otro sonido.
Audio inpainting: completar un segmento de audio enmascarado basado en el contexto o la indicación textual proporcionada.
Tarea de super-resolución en la cual se convierte audio de baja resolución en audio de alta resolución.

En conclusión, AUDIT parece ser un enfoque prometedor para el futuro que puede simplificar la edición de audio de manera flexible y efectiva siguiendo instrucciones humanas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente

Was this article helpful?

Conoce a Auto-GPT una aplicación experimental de código abierto que muestra el poder de los LLMs como GPT-4 para desarrollar y gestionar autónomamente diferentes tipos de tareas.

Top Herramientas/Startups de Datos Sintéticos para Modelos de Aprendizaje Automático en 2023

Inteligencia Artificial

Calculadora de números determina si las ballenas están actuando de manera extraña

Investigadores de CMU proponen GILL un método de IA para fusionar LLMs con modelos de codificador y decodificador de imágenes

Sitios web basura llenos de texto generado por inteligencia artificial están generando dinero a través de anuncios programáticos.

Investigadores de Google presentan una biblioteca de código abierto en JAX para el aprendizaje profundo en superficies esféricas

Investigadores de ETH Zurich y Microsoft proponen X-Avatar un modelo de avatar humano implícito animable capaz de capturar la postura del cuerpo humano y expresiones faciales.

Investigadores de Stanford presentan PLATO Un nuevo enfoque de IA para abordar el ajuste excesivo en el aprendizaje automático de alta dimensión y baja muestra con regularización mejorada mediante gráficos de conocimiento.