Meta AI presenta MusicGen un modelo de generación de música simple y controlable impulsado tanto por texto como por melodía.

Meta AI presents MusicGen, a simple and controllable music generation model powered by both text and melody.

Crear composiciones musicales a partir de descripciones de texto, como “canción de rock de los años 90 con un riff de guitarra”, es texto a música. Debido a que implica simular procesos a largo plazo, hacer música es una tarea difícil. La música, a diferencia del habla, requiere el uso de todo el rango de frecuencia. Esto implica muestrear la señal con más frecuencia; por ejemplo, las grabaciones de música suelen utilizar tasas de muestreo de 44,1 kHz o 48 kHz en lugar de 16 kHz para el habla. Además, las armonías y melodías de varios instrumentos se combinan para formar estructuras complicadas en la música. Los oyentes humanos son extremadamente sensibles a la discordia. Por lo tanto, hay poco margen para errores melódicos al crear música. 

Por último, es crucial que los productores de música tengan la capacidad de controlar el proceso de generación con diversas herramientas, como teclas, instrumentos, melodía, género, etc. Los recientes avances en síntesis de audio, modelado secuencial y aprendizaje de representaciones de audio auto-supervisado hacen posible el marco para crear dichos modelos. La investigación reciente sugiere expresar las señales de audio como varias corrientes de tokens discretos que representan la misma señal para que el modelado de audio sea más manejable. Esto permite tanto el modelado de audio eficiente como la generación de audio de alta calidad. Esto, sin embargo, implica modelar conjuntamente varias corrientes paralelas dependientes. 

Los investigadores han sugerido modelar varias corrientes de tokens de habla concurrentes mediante un método de retraso o agregando desplazamientos entre las diversas corrientes. Otros sugieren modelar partes musicales mediante una jerarquía de modelos autorregresivos y mostrarlos mediante varias secuencias de tokens discretos a diversas granularidades. Paralelamente, varios investigadores utilizan una estrategia similar para generar canto con acompañamiento. Los investigadores han sugerido dividir este problema en dos etapas: (i) modelar solo la corriente inicial de tokens y (ii) utilizar una red posterior para modelar conjuntamente el resto de las corrientes de una manera no autorregresiva. Los investigadores de Meta AI presentan MUSICGEN en este estudio, un modelo sencillo y controlado de generación de música que puede producir música de alta calidad a partir de una descripción escrita. 

Como generalización de investigaciones anteriores, proporcionan un marco genérico para modelar numerosas corrientes concurrentes de tokens acústicos. También incorporan un condicionamiento de melodía no supervisado, que permite al modelo producir música que se ajusta a una estructura armónica y melódica específica para aumentar la controlabilidad de las muestras creadas. Estudiaron detenidamente MUSICGEN y demostraron que es mucho mejor que las líneas de base analizadas, dándole una calificación subjetiva de 84,8 sobre 100 en comparación con el 80,5 de la mejor línea de base. También ofrecen una investigación de ablación que aclara la importancia de cada componente en el rendimiento del modelo completo. 

Por último, la evaluación humana indica que MUSICGEN produce muestras de alta calidad que están más alineadas melódicamente con una estructura armónica específica y se adhieren a una descripción escrita. Su participación: (i) presentan una metodología sencilla y efectiva para producir música de alta calidad a 32 kHz. Demuestran cómo MUSICGEN puede crear música confiable utilizando un modelo de lenguaje de una sola etapa y una técnica de entrelazamiento de codificación exitosa. (ii) Proporcionan un modelo único para llevar a cabo tanto la generación condicionada por texto como la generación condicionada por melodía, y muestran que el audio generado es leal a la información de condicionamiento de texto y coherente con la melodía dada. (iii) Ofrecen evaluaciones detalladas de las decisiones fundamentales de diseño de su método que son tanto objetivas como subjetivas. La implementación de PyTorch del código para MusicGen está disponible en la biblioteca AudioCraft en GitHub.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Explicabilidad de los Modelos de Aprendizaje Automático Aumentando la Confianza y Comprensión en los Sistemas de IA

Para hacer un uso ético y confiable de la IA, los investigadores deben continuar creando metodologías que equilibren ...

Inteligencia Artificial

Ve este nuevo sistema de IA llamado Estudiante de Juegos (SoG) que es capaz de vencer a los humanos en una variedad de juegos y aprender a jugar nuevos'.

Existe una larga tradición de utilizar juegos como indicadores de rendimiento de la IA. Los enfoques basados ​​en bús...

Inteligencia Artificial

Construyendo aplicaciones personalizadas de preguntas y respuestas utilizando LangChain y la base de datos de vectores de Pinecone

Introducción La aparición de grandes modelos de lenguaje es uno de los desarrollos tecnológicos más emocionantes de n...

Inteligencia Artificial

Conoce AudioLDM 2 Un marco de trabajo de IA único para la generación de audio que combina habla, música y efectos de sonido

En un mundo cada vez más dependiente de los conceptos de Inteligencia Artificial y Aprendizaje Profundo, el ámbito de...