MusicGen Reimaginado Los avances desconocidos de Meta en la música AI

MusicGen Reimaginado Los avances desconocidos de la IA en la música

Explorando el progreso ignorado pero notable de MusicGen

Una imagen que simboliza cómo los productos de IA musical pueden elevar la producción musical para todos. Imagen generada a través de una conversación con ChatGPT y DALL-E-3.

Cómo comenzó…

En febrero de 2023, Google causó sensación con su música generativa de IA, MusicLM. En ese momento, dos cosas quedaron claras:

  1. 2023 sería el año clave para la generación musical basada en IA
  2. Un nuevo modelo eclipsaría a MusicLM en poco tiempo

Muchos anticipaban que el próximo modelo revolucionario sería diez veces más grande que MusicLM en términos de parámetros del modelo y datos de entrenamiento. También plantearía los mismos problemas éticos, como el acceso restringido al código fuente y el uso de material de entrenamiento protegido por derechos de autor.

Hoy en día, sabemos que solo la mitad de esto fue verdad.

Lanzado en junio de 2023, el modelo MusicGen de Meta trajo algunas mejoras masivas, incluyendo…

  1. Salida de música de mayor calidad (24kHz → 32kHz)
  2. Instrumentos con un sonido más natural
  3. La opción de condicionar la generación a cualquier melodía (he escrito una publicación de blog al respecto)

…todo esto utilizando menos datos de entrenamiento, liberando el código y los pesos del modelo como open-source, y utilizando solo material de entrenamiento con licencia comercial.

Seis meses después, la emoción ha disminuido lentamente. Sin embargo, el equipo de investigación de Meta, FAIR, ha continuado publicando documentos y actualizando el código para mejorar incrementalmente MusicGen.

…cómo va

Desde su lanzamiento, Meta ha mejorado MusicGen de dos formas clave:

  1. Generación de mayor calidad utilizando difusión en múltiples bandas
  2. Salidas más animadas gracias a la generación en estéreo

Aunque esto puede parecer dos mejoras pequeñas, marca una gran diferencia. ¡Escucha por ti mismo! Aquí tienes una pieza de 10 segundos generada con el modelo original de MusicGen (3.3B de parámetros):

Pista generada tomada de la página de demostración oficial de MusicGen aquí.

La indicación utilizada fue:

tonos terrenales, respetuoso con el medio ambiente, infusionado de ukelele, armónico, fresco, relajado, instrumentación orgánica, ritmos suaves

A continuación, te presentamos un ejemplo de la pista que puede producir MusicGen seis meses después, utilizando la misma indicación:

Pista generada creada con MusicGen 3.3B estéreo por el autor.

Si estás escuchando a través de los altavoces de un teléfono inteligente, es posible que no notes mucha diferencia. Sin embargo, en otros dispositivos, deberías poder notar que el sonido en general es mucho más claro y natural, y que el sonido estéreo hace que la composición sea más animada y emocionante.

En esta publicación de blog, quiero mostrar estas mejoras, explicar por qué son importantes y cómo funcionan, y proporcionar algunos ejemplos de generaciones.

Difusión en Múltiples Bandas: ¿Qué hace eso?

Para entender qué es la difusión en múltiples bandas y por qué marca la diferencia, veamos cómo el modelo original de MusicGen [1] producía sus resultados.

30 segundos de audio con una frecuencia de muestreo de 34kHz se representan en una computadora con casi 1 millón de números. Generar algo así muestra por muestra es comparable a generar 10 novelas completas con ChatGPT.

En su lugar, Meta se basa en técnicas de compresión neural de audio. Su modelo de compresión, EnCodec [2], puede comprimir música de 34kHz a aproximadamente 0.05kHz, manteniendo toda la información relevante para reconstruirla a la frecuencia de muestra original. EnCodec consta de un codificador, que comprime el audio, y un decodificador, que recrea los sonidos originales (Figura 1).

Figura 1 — Encodec: el modelo de compresión de audio neural de Meta. Imagen del autor.

Ahora volvamos a MusicGen. En lugar de generar música a la velocidad de muestreo completa, la genera a 0,05 kHz y permite que EnCodec la “reconstruya”, lo que da como resultado salidas de alta fidelidad con un tiempo de computación y costos mínimos (Figura 2).

Figura 2 — MusicGen: una solicitud de usuario (texto) se convierte en una señal de audio codificada que luego se decodifica para producir el resultado final. Imagen del autor.

Aunque EnCodec es una tecnología impresionante, su compresión no es sin pérdidas. Se pueden observar artefactos notables en el audio reconstruido en comparación con el original. ¡Escuchen ustedes mismos!

Audio Original

Ejemplo de música EnCodec tomada de la página de demostración oficial de EnCodec.

Audio Reconstruido

Ejemplo de música EnCodec tomada de la página de demostración oficial de EnCodec.

Dado que MusicGen depende totalmente de EnCodec, es un gran obstáculo para la calidad de la música generada. Por eso, Meta decidió trabajar en mejorar la parte del decodificador de EnCodec. En agosto de 2023, desarrollaron un decodificador actualizado para EnCodec que aprovecha la difusión multibanda [3].

Un problema que Meta encontró con el decodificador original de EnCodec fue que tendía a generar primero frecuencias bajas y luego frecuencias más altas. Desafortunadamente, esto significaba que cualquier error/artefacto en las frecuencias bajas también distorsionaría las frecuencias altas, disminuyendo drásticamente la calidad de salida.

La difusión multibanda aborda este problema generando diferentes secciones del espectro de frecuencias de forma independiente antes de combinarlas. Los investigadores encontraron que este procedimiento mejoraba significativamente las salidas generadas. Las diferencias son claramente perceptibles desde mi perspectiva. Escuchen la misma pista con el decodificador original de EnCodec y el decodificador de difusión multibanda:

Decodificador Original

Pista generada tomada de la página de demostración de Difusión Multibanda.

Decodificador de Difusión Multibanda

Pista generada tomada de la página de demostración de Difusión Multibanda.

Uno de los problemas principales de los sistemas actuales de texto a música es que siempre hay una calidad poco natural en los sonidos que produce, especialmente para los instrumentos acústicos. La difusión multibanda hace que el sonido de salida sea mucho más limpio y natural y lleva a MusicGen a un nuevo nivel.

¿Por qué el Sonido Estéreo es tan Importante?

Hasta ahora, la mayoría de los modelos de música generativa habían estado produciendo sonido mono. Esto significa que MusicGen no coloca ningún sonido o instrumento a la izquierda o derecha, lo que resulta en una mezcla menos animada y emocionante. La razón por la que el sonido estéreo ha sido en su mayoría pasado por alto hasta ahora es que generar estéreo no es una tarea trivial.

Como músicos, cuando producimos señales estéreo, tenemos acceso a las pistas de instrumentos individuales en nuestra mezcla y podemos colocarlos donde queramos. MusicGen no genera todos los instrumentos por separado, sino que produce una señal de audio combinada. Sin acceso a estas fuentes de instrumentos, crear sonido estéreo es difícil. Desafortunadamente, dividir una señal de audio en sus fuentes individuales es un problema difícil (he publicado una entrada de blog al respecto) y la tecnología todavía no está al 100% lista.

Por lo tanto, Meta decidió incorporar la generación estéreo directamente en el modelo MusicGen. Utilizando un nuevo conjunto de datos compuesto por música en estéreo, entrenaron a MusicGen para producir salidas en estéreo. Los investigadores afirman que generar estéreo no tiene costos computacionales adicionales en comparación con el mono.

Aunque siento que el procedimiento estéreo no está muy claramente descrito en el artículo, mi entendimiento es que funciona así (Figura 3): MusicGen ha aprendido a generar dos señales de audio comprimidas (canal izquierdo y derecho) en lugar de una señal mono. Estas señales comprimidas deben ser decodificadas por separado antes de combinarse para construir la salida estéreo final. La razón por la que este proceso no lleva el doble de tiempo es porque MusicGen ahora puede producir dos señales de audio comprimidas aproximadamente al mismo tiempo que antes para una señal.

Figura 3 - Actualización estéreo de MusicGen. Tenga en cuenta que el proceso no está suficientemente documentado en el artículo para que yo esté 100% seguro al respecto. Tómelo como una suposición educada. Imagen del autor.

La capacidad de producir sonido estéreo convincente realmente distingue a MusicGen de otros modelos de vanguardia como MusicLM o Stable Audio. Desde mi perspectiva, esta “pequeña” adición marca una gran diferencia en la vivacidad de la música generada. Escuchen por ustedes mismos (puede ser difícil de escuchar en altavoces de teléfonos inteligentes):

Mono

Estéreo

Conclusión

MusicGen fue impresionante desde el día de su lanzamiento. Sin embargo, desde entonces, el equipo FAIR de Meta ha estado mejorando continuamente su producto, permitiendo resultados de mayor calidad que suenan más auténticos. En cuanto a los modelos de texto a música que generan señales de audio (no MIDI, etc.), desde mi perspectiva, MusicGen está por delante de sus competidores (hasta noviembre de 2023).

Además, dado que MusicGen y todos sus productos relacionados (EnCodec, AudioGen) son de código abierto, constituyen una increíble fuente de inspiración y un marco de referencia para los aspirantes a ingenieros de audio de IA. Si observamos las mejoras que ha realizado MusicGen en solo 6 meses, solo puedo imaginar que 2024 será un año emocionante.

Otro punto importante es que, con su enfoque transparente, Meta también está haciendo un trabajo fundamental para los desarrolladores que desean integrar esta tecnología en software para músicos. Generar muestras, generar ideas musicales o cambiar el género de su trabajo existente son algunas de las aplicaciones emocionantes que ya estamos viendo. Con un nivel suficiente de transparencia, podemos asegurarnos de construir un futuro donde la IA haga que la creación de música sea más emocionante en lugar de ser solo una amenaza para la musicalidad humana.

Nota: ¡Si bien MusicGen es de código abierto, los modelos pre-entrenados no pueden utilizarse comercialmente! Visite el repositorio de audiocraft GitHub para obtener información más detallada sobre el uso previsto de todos sus componentes.

Referencias

[1] Copet et al. (2023). Generación de música simple y controlable. https://arxiv.org/pdf/2306.05284.pdf

[2] Défossez et al. (2022). Compresión de audio neuronal de alta fidelidad. https://arxiv.org/pdf/2210.13438.pdf

[3] Roman et al. (2023). Desde tokens discretos hasta audio de alta fidelidad utilizando difusión de múltiples bandas. https://arxiv.org/abs/2308.02560

Acerca de Mí

¡Hola! Soy musicólogo y científico de datos, compartiendo mis pensamientos sobre temas actuales en IA y música. Aquí hay algunos de mis trabajos anteriores relacionados con este artículo:

¡Encuéntrame en VoAGI y Linkedin!

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Ascenso y Caída de la Ingeniería Rápida ¿Moda o Futuro?

Este artículo proporciona una visión general de la ingeniería rápida, desde sus inicios hasta su estado actual.

Inteligencia Artificial

MLOps para la inferencia por lotes con monitoreo y reentrenamiento del modelo utilizando Amazon SageMaker, HashiCorp Terraform y GitLab CI/CD

En esta publicación, describimos cómo crear un flujo de trabajo de MLOps para la inferencia por lotes que automatiza ...

Aprendizaje Automático

AI Modelos de Lenguaje y Visión de Gran Escala

Este artículo analiza la importancia de los modelos de lenguaje y visualización en la inteligencia artificial, sus ca...

Inteligencia Artificial

Estudiantes y profesores critican los sensores en los edificios

Los funcionarios de la Universidad Queen Mary de Londres, en el Reino Unido, anunciaron a principios de este año que ...