Conoce AUDIT Un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente
Conoce AUDIT, un modelo de edición de audio guiado por instrucciones basado en modelos de difusión latente.
Los modelos de difusión están avanzando rápidamente y facilitando la vida. Desde el Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural hasta la Visión por Computadora, los modelos de difusión han mostrado resultados prometedores en casi todos los dominios. Estos modelos son un desarrollo reciente en IA generativa y son un tipo de modelo generativo profundo que se puede usar para generar muestras realistas de distribuciones complejas.
Recientemente, los investigadores han presentado un nuevo modelo de difusión que puede editar fácilmente clips de audio. Llamado AUDIT, este modelo latente de difusión es un modelo de edición de audio guiado por instrucciones. La edición de audio implica principalmente cambiar una señal de audio de entrada para producir una salida de audio editada. Esto incluye tareas como agregar efectos de sonido de fondo, reemplazar música de fondo, reparar audio incompleto o mejorar audio de baja calidad. AUDIT toma tanto el audio de entrada como las instrucciones humanas como condiciones y genera la salida de audio editada.
Los investigadores han utilizado datos de tripleta para entrenar el modelo de difusión de edición de audio de manera supervisada. Los datos de tripleta utilizados son instrucción, audio de entrada y audio de salida. El audio de entrada se ha utilizado directamente como entrada condicional para garantizar la consistencia en los segmentos de audio sin editar. Las instrucciones de edición también se han utilizado directamente como guía de texto para hacer que el modelo sea más flexible y adecuado para escenarios del mundo real.
- Conoce a Auto-GPT una aplicación experimental de código abierto que muestra el poder de los LLMs como GPT-4 para desarrollar y gestionar autónomamente diferentes tipos de tareas.
- Los mejores mejoradores de audio de IA (2023)
- Principales extensiones de Chrome con inteligencia artificial AI
El equipo de investigadores detrás de AUDIT ha resumido sus contribuciones de la siguiente manera:
- AUDIT es el primer desarrollo en el cual se ha entrenado un modelo de difusión para la edición de audio, que toma instrucciones de texto humanas como condición.
- Se ha diseñado un marco de construcción de datos para entrenar AUDIT de manera supervisada.
- AUDIT es capaz de maximizar la preservación de los segmentos de audio que no requieren edición.
- AUDIT funciona bien con instrucciones simples como guía de texto sin necesidad de una descripción detallada del objetivo de la edición.
- AUDIT ha logrado resultados destacados tanto en métricas objetivas como subjetivas para varias tareas de edición de audio.
El equipo ha compartido algunos ejemplos donde AUDIT ha tenido un gran desempeño y ha editado audios de manera precisa. Estos incluyen agregar el sonido de bocinas de automóviles en el audio, reemplazar el sonido de risa con el sonido de una trompeta, eliminar el sonido de una mujer hablando del audio de alguien silbando, entre otros. AUDIT tuvo un rendimiento extremadamente bueno en tareas de edición de audio y mostró excelentes resultados en métricas objetivas y subjetivas, incluyendo las siguientes tareas:
- Agregar un sonido a un clip de audio.
- Eliminar o quitar un sonido de un clip de audio.
- Sustituir un evento de sonido en el audio de entrada por otro sonido.
- Audio inpainting: completar un segmento de audio enmascarado basado en el contexto o la indicación textual proporcionada.
- Tarea de super-resolución en la cual se convierte audio de baja resolución en audio de alta resolución.
En conclusión, AUDIT parece ser un enfoque prometedor para el futuro que puede simplificar la edición de audio de manera flexible y efectiva siguiendo instrucciones humanas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Principales herramientas de IA generativa en generación de código/codificación (2023)
- Conoce AnimateDiff un marco de IA efectivo para ampliar los modelos de texto a imagen personalizados (T2I) en un generador de animaciones sin necesidad de ajustes específicos del modelo.
- Automatizando la Cadena del Pensamiento Cómo la IA puede impulsarse a sí misma a razonar
- Exploración de datos impulsada por ChatGPT desbloquea conocimientos ocultos en tu conjunto de datos
- 6 Pasos para Proteger tu Privacidad al Usar Herramientas de IA Generativa
- Investigadores de ETH Zurich y Microsoft proponen X-Avatar un modelo de avatar humano implícito animable capaz de capturar la postura del cuerpo humano y expresiones faciales.
- Herramientas de IA principales para emprendedores 2023