ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo de generación musical de principio a fin, entrenado para escuchar el contexto musical y responder de manera apropiada

ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo que genera música de principio a fin, capaz de escuchar el contexto musical y dar respuestas apropiadas

La generación de música usando el aprendizaje profundo implica entrenar modelos para crear composiciones musicales, imitando los patrones y estructuras encontrados en la música existente. Se utilizan técnicas de aprendizaje profundo comúnmente, como redes RNN, redes LSTM y modelos de transformadores. Esta investigación explora un enfoque innovador para generar audio musical utilizando modelos basados en transformadores no autorregresivos que responden al contexto musical. Este nuevo paradigma enfatiza escuchar y responder, a diferencia de los modelos existentes que se basan en una condición abstracta. El estudio incorpora los avances recientes en el campo y discute las mejoras realizadas en la arquitectura.

Investigadores de SAMI, ByteDance Inc., presentan un modelo basado en transformadores no autorregresivos que escucha y responde al contexto musical, aprovechando un punto de control de Encodec disponible públicamente para el modelo MusicGen. La evaluación utiliza métricas estándar y un enfoque de descripción de recuperación de información musical, que incluye la Distancia de Audio de Frechet (FAD) y la Distancia del Descriptor de Recuperación de Información Musical (MIRDD). El modelo resultante demuestra una calidad de audio competitiva y una alineación musical robusta con el contexto, validado a través de métricas objetivas y pruebas subjetivas de MOS.

La investigación destaca los avances recientes en la generación de audio musical de extremo a extremo a través del aprendizaje profundo, aprovechando técnicas de procesamiento de imágenes y lenguaje. Se enfatiza el desafío de alinear los elementos en la composición musical y se critican los modelos existentes que se basan en una condición abstracta. Se propone un paradigma de entrenamiento que utiliza una arquitectura basada en transformadores no autorregresiva para modelos que responden al contexto musical. Se presentan dos fuentes de condicionamiento y se plantea el problema como una generación condicional. Métricas objetivas, descriptores de recuperación de información musical y pruebas de escucha son necesarios para la evaluación del modelo.

El método utiliza un modelo basado en transformadores no autorregresivo para la generación de música, incorporando un vector cuantizador residual en un modelo separado de codificación de audio. Combina múltiples canales de audio en un solo elemento de secuencia a través de uniones concatenadas. El entrenamiento utiliza un procedimiento de enmascaramiento, y se utiliza un guía sin clasificador durante el muestreo de tokens para una mayor alineación del contexto de audio. Las métricas objetivas evalúan el rendimiento del modelo, incluyendo la Distancia de Audio de Fréchet y la Distancia del Descriptor de Recuperación de Información Musical. La evaluación implica generar y comparar salidas de ejemplo con pistas reales utilizando diversas métricas.

El estudio evalúa los modelos generados utilizando métricas estándar y un enfoque de descripción de recuperación de información musical, incluyendo FAD y MIRDD. La comparación con pistas reales indica que los modelos logran una calidad de audio comparable a los modelos condicionados por texto de última generación y demuestran una fuerte coherencia musical con el contexto. Una prueba de Puntuación de Opinión Media que involucra a participantes con formación musical valida aún más la capacidad del modelo para producir resultados musicales plausibles. MIRDD, que evalúa la alineación de distribución de pistas generadas y reales, proporciona una medida de coherencia musical y alineación.

En conclusión, la investigación realizada se puede resumir en los siguientes puntos:

La investigación propone un nuevo enfoque de entrenamiento para modelos generativos que pueden responder al contexto musical.
El enfoque introduce un modelo de lenguaje no autorregresivo con un esqueleto de transformador y dos mejoras no probadas: guía sin clasificador de múltiples fuentes y sesgo causal durante la decodificación iterativa.
Los modelos logran una calidad de audio de última generación mediante el entrenamiento en conjuntos de datos de código abierto y propietarios.
Se ha validado la calidad de audio de última generación utilizando métricas estándar y un enfoque de descripción de recuperación de información musical.
Una prueba de Puntuación de Opinión Media confirma la capacidad del modelo para generar resultados musicales realistas.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickMachine LearningStaff

Was this article helpful?

93 out of 132 found this helpful

ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo de generación musical de principio a fin, entrenado para escuchar el contexto musical y responder de manera apropiada

Was this article helpful?

Difusión Estable Dominando el Arte del Diseño de Interiores

De descifrar el mecanismo de atención hacia una solución de margen máximo en los modelos de transformador

Inteligencia Artificial

OpenAI contempla unirse a la Liga de la fabricación de chips de IA

El Avance Computacional Ayudará a los Investigadores a Modelar el Clima con Mayor Fidelidad.

Satélites Sentinel mapean superemisores de metano

Investigadores de la Universidad de Surrey lanzan una herramienta revolucionaria de detección de objetos basada en bocetos en el aprendizaje automático.

Creando un GPT Climático Utilizando la API de Energía de la NASA

Revolucionando la productividad del correo electrónico Cómo la IA de SaneBox transforma tu experiencia en la bandeja de entrada