ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo de generación musical de principio a fin, entrenado para escuchar el contexto musical y responder de manera apropiada
ByteDance AI Research presenta StemGen un modelo de aprendizaje profundo que genera música de principio a fin, capaz de escuchar el contexto musical y dar respuestas apropiadas
La generación de música usando el aprendizaje profundo implica entrenar modelos para crear composiciones musicales, imitando los patrones y estructuras encontrados en la música existente. Se utilizan técnicas de aprendizaje profundo comúnmente, como redes RNN, redes LSTM y modelos de transformadores. Esta investigación explora un enfoque innovador para generar audio musical utilizando modelos basados en transformadores no autorregresivos que responden al contexto musical. Este nuevo paradigma enfatiza escuchar y responder, a diferencia de los modelos existentes que se basan en una condición abstracta. El estudio incorpora los avances recientes en el campo y discute las mejoras realizadas en la arquitectura.
Investigadores de SAMI, ByteDance Inc., presentan un modelo basado en transformadores no autorregresivos que escucha y responde al contexto musical, aprovechando un punto de control de Encodec disponible públicamente para el modelo MusicGen. La evaluación utiliza métricas estándar y un enfoque de descripción de recuperación de información musical, que incluye la Distancia de Audio de Frechet (FAD) y la Distancia del Descriptor de Recuperación de Información Musical (MIRDD). El modelo resultante demuestra una calidad de audio competitiva y una alineación musical robusta con el contexto, validado a través de métricas objetivas y pruebas subjetivas de MOS.
La investigación destaca los avances recientes en la generación de audio musical de extremo a extremo a través del aprendizaje profundo, aprovechando técnicas de procesamiento de imágenes y lenguaje. Se enfatiza el desafío de alinear los elementos en la composición musical y se critican los modelos existentes que se basan en una condición abstracta. Se propone un paradigma de entrenamiento que utiliza una arquitectura basada en transformadores no autorregresiva para modelos que responden al contexto musical. Se presentan dos fuentes de condicionamiento y se plantea el problema como una generación condicional. Métricas objetivas, descriptores de recuperación de información musical y pruebas de escucha son necesarios para la evaluación del modelo.
- Difusión Estable Dominando el Arte del Diseño de Interiores
- Google AI propone PixelLLM un modelo de visión y lenguaje capaz de localización de gran precisión y alineación de visión y lenguaje.
- 2023, año de los LLMs abiertos
El método utiliza un modelo basado en transformadores no autorregresivo para la generación de música, incorporando un vector cuantizador residual en un modelo separado de codificación de audio. Combina múltiples canales de audio en un solo elemento de secuencia a través de uniones concatenadas. El entrenamiento utiliza un procedimiento de enmascaramiento, y se utiliza un guía sin clasificador durante el muestreo de tokens para una mayor alineación del contexto de audio. Las métricas objetivas evalúan el rendimiento del modelo, incluyendo la Distancia de Audio de Fréchet y la Distancia del Descriptor de Recuperación de Información Musical. La evaluación implica generar y comparar salidas de ejemplo con pistas reales utilizando diversas métricas.
El estudio evalúa los modelos generados utilizando métricas estándar y un enfoque de descripción de recuperación de información musical, incluyendo FAD y MIRDD. La comparación con pistas reales indica que los modelos logran una calidad de audio comparable a los modelos condicionados por texto de última generación y demuestran una fuerte coherencia musical con el contexto. Una prueba de Puntuación de Opinión Media que involucra a participantes con formación musical valida aún más la capacidad del modelo para producir resultados musicales plausibles. MIRDD, que evalúa la alineación de distribución de pistas generadas y reales, proporciona una medida de coherencia musical y alineación.
En conclusión, la investigación realizada se puede resumir en los siguientes puntos:
- La investigación propone un nuevo enfoque de entrenamiento para modelos generativos que pueden responder al contexto musical.
- El enfoque introduce un modelo de lenguaje no autorregresivo con un esqueleto de transformador y dos mejoras no probadas: guía sin clasificador de múltiples fuentes y sesgo causal durante la decodificación iterativa.
- Los modelos logran una calidad de audio de última generación mediante el entrenamiento en conjuntos de datos de código abierto y propietarios.
- Se ha validado la calidad de audio de última generación utilizando métricas estándar y un enfoque de descripción de recuperación de información musical.
- Una prueba de Puntuación de Opinión Media confirma la capacidad del modelo para generar resultados musicales realistas.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Acelerando el tiempo para obtener conocimientos con las colecciones de series temporales de MongoDB y Amazon SageMaker Canvas
- Tesla retira 2 millones de autos con controles de seguridad de ‘autoguiado’ insuficientes
- Asesores y herramientas de planificación de IA Transformando Finanzas, Logística y más allá
- El socio tecnológico que toda startup necesita servicios de desarrollo de software
- 2023 en revisión Recapitulando la era posterior a ChatGPT y qué esperar en 2024
- Creando visualizaciones dinámicas de coropletas utilizando Plotly
- Todas las Ofertas de Asociación entre Microsoft y ODSC