Generación de música a partir de texto Stability Audio, MusicLM de Google y más

Generación de música a partir de texto' Stability Audio, MusicLM de Google y más

Música, una forma de arte que resuena con el alma humana, ha sido una compañera constante de todos nosotros. La creación de música utilizando inteligencia artificial comenzó hace varias décadas. Inicialmente, los intentos eran simples e intuitivos, con algoritmos básicos creando melodías monótonas. Sin embargo, a medida que avanzaba la tecnología, también lo hacía la complejidad y las capacidades de los generadores de música de IA, allanando el camino para que el aprendizaje profundo y el procesamiento del lenguaje natural (NLP) desempeñen un papel fundamental en esta tecnología.

Hoy en día, plataformas como Spotify están aprovechando la IA para afinar las experiencias auditivas de sus usuarios. Estos algoritmos de aprendizaje profundo analizan las preferencias individuales basadas en varios elementos musicales como el tempo y el estado de ánimo para crear sugerencias de canciones personalizadas. Incluso analizan patrones de escucha más amplios y buscan en internet discusiones relacionadas con las canciones para construir perfiles detallados de las canciones.

El origen de la IA en la música: Un viaje desde la composición algorítmica hasta el modelado generativo

En las primeras etapas de la mezcla de IA en el mundo de la música, que abarca desde la década de 1950 hasta la década de 1970, el enfoque se centraba principalmente en la composición algorítmica. Este era un método en el que las computadoras utilizaban un conjunto definido de reglas para crear música. La primera creación notable durante este período fue la Suite Illiac para cuarteto de cuerdas en 1957. Utilizó el algoritmo de Monte Carlo, un proceso que involucra números aleatorios para dictar la altura y el ritmo dentro de los límites de la teoría musical tradicional y las probabilidades estadísticas.

Imagen generada por el autor utilizando Midjourney

Durante este tiempo, otro pionero, Iannis Xenakis, utilizó procesos estocásticos, un concepto que involucra distribuciones de probabilidad aleatorias, para crear música. Utilizó computadoras y el lenguaje FORTRAN para conectar múltiples funciones de probabilidad, creando un patrón en el que diferentes representaciones gráficas correspondían a espacios sonoros diversos.

La complejidad de traducir texto a música

La música se almacena en un formato de datos rico y multidimensional que abarca elementos como la melodía, la armonía, el ritmo y el tempo, lo que hace que la tarea de traducir texto a música sea altamente compleja. Una canción estándar está representada por casi un millón de números en una computadora, una cifra significativamente mayor que otros formatos de datos como imágenes, texto, etc.

El campo de la generación de audio está presenciando enfoques innovadores para superar los desafíos de crear sonidos realistas. Un método consiste en generar un espectrograma y luego convertirlo de nuevo en audio.

Otra estrategia aprovecha la representación simbólica de la música, como la partitura, que puede ser interpretada y tocada por músicos. Este método se ha digitalizado con éxito, con herramientas como el Generador de Conjunto de Cámara de Magenta creando música en el formato MIDI, un protocolo que facilita la comunicación entre computadoras e instrumentos musicales.

Aunque estos enfoques han avanzado en el campo, también tienen sus propias limitaciones, subrayando la naturaleza compleja de la generación de audio.

Los modelos autoregresivos basados en transformadores y los modelos de difusión basados en U-Net están a la vanguardia de la tecnología, produciendo resultados de última generación en la generación de audio, texto, música y mucho más. Las series GPT de OpenAI y casi todos los demás LLM actualmente están impulsados por transformadores que utilizan arquitecturas de codificador, decodificador o ambas. En el lado del arte / imagen, MidJourney, Stability AI y DALL-E 2 aprovechan marcos de difusión. Estas dos tecnologías principales han sido clave para lograr resultados de última generación en el sector del audio. En este artículo, profundizaremos en MusicLM de Google y Stable Audio, que son un testimonio de las notables capacidades de estas tecnologías.

MusicLM de Google

MusicLM de Google fue lanzado en mayo de este año. MusicLM puede generar piezas de música de alta fidelidad que resuenan con el sentimiento exacto descrito en el texto. Utilizando un modelado jerárquico de secuencia a secuencia, MusicLM tiene la capacidad de transformar descripciones de texto en música que resuena a 24 kHz durante largas duraciones.

El modelo opera a un nivel multidimensional, no solo adhiriéndose a las entradas textuales, sino también demostrando la capacidad de ser condicionado por melodías. Esto significa que puede tomar una melodía tarareada o silbada y transformarla de acuerdo con el estilo delineado en una leyenda de texto.

Información técnica

MusicLM aprovecha los principios de AudioLM, un marco introducido en 2022 para la generación de audio. AudioLM sintetiza el audio como una tarea de modelado de lenguaje dentro de un espacio de representación discreto, utilizando una jerarquía de unidades discretas de audio de grueso a fino, también conocidas como tokens. Este enfoque garantiza alta fidelidad y coherencia a largo plazo durante duraciones sustanciales.

Para facilitar el proceso de generación, MusicLM amplía las capacidades de AudioLM para incorporar el condicionamiento de texto, una técnica que alinea el audio generado con los matices del texto de entrada. Esto se logra a través de un espacio de embedding compartido creado con MuLan, un modelo conjunto de música y texto entrenado para proyectar música y sus descripciones de texto correspondientes cerca una de la otra en un espacio de embedding. Esta estrategia elimina efectivamente la necesidad de subtítulos durante el entrenamiento, lo que permite entrenar el modelo en grandes corpus de solo audio.

El modelo de MusicLM también utiliza SoundStream como su tokenizador de audio, que puede reconstruir música de 24 kHz a 6 kbps con una fidelidad impresionante, aprovechando la cuantización vectorial residual (RVQ) para una compresión de audio eficiente y de alta calidad.

Una ilustración del proceso de preentrenamiento de MusicLM: SoundStream, w2v-BERT y Mulan | Fuente de la imagen: aquí

Además, MusicLM amplía sus capacidades al permitir el condicionamiento de la melodía. Este enfoque garantiza que incluso una simple melodía tarareada pueda sentar las bases para una magnífica experiencia auditiva, ajustada al estilo exacto de las descripciones de texto.

Los desarrolladores de MusicLM también han publicado en código abierto MusicCaps, un conjunto de datos que presenta 5,5k pares de música y texto, cada uno acompañado de descripciones de texto detalladas creadas por expertos humanos. Puedes echarle un vistazo aquí: MusicCaps en Hugging Face.

¿Listo para crear bandas sonoras de IA con MusicLM de Google? Así es cómo empezar:

Visita el sitio web oficial de MusicLM y haz clic en “Comenzar”.
Únete a la lista de espera seleccionando “Registrar tu interés”.
Inicia sesión con tu cuenta de Google.
Una vez que se te conceda el acceso, haz clic en “Probar ahora” para comenzar.

A continuación, hay algunos ejemplos de indicaciones con los que experimenté:

“Canción meditativa, calmante y relajante, con flautas y guitarras. La música es lenta, con un enfoque en crear una sensación de paz y tranquilidad.”

“jazz con saxofón”

En una evaluación cualitativa comparativa con modelos SOTA anteriores como Riffusion y Mubert, MusicLM fue preferido más que los demás, con participantes que calificaron favorablemente la compatibilidad de los subtítulos de texto con clips de audio de 10 segundos en una escala Likert de 5 puntos.

Rendimiento de MusicLM, Fuente de la imagen: aquí

Estabilidad de Audio

Stability AI presentó la semana pasada “Stable Audio”, una arquitectura de modelo de difusión latente condicionada por metadatos de texto junto con la duración y el tiempo de inicio del archivo de audio. Este enfoque, al igual que MusicLM de Google, tiene control sobre el contenido y la longitud del audio generado, lo que permite la creación de clips de audio con longitudes especificadas de hasta el tamaño de la ventana de entrenamiento.

Stable Audio

Información técnica

Stable Audio consta de varios componentes, incluido un codificador automático variacional (VAE) y un modelo de difusión condicionado basado en U-Net, que trabajan junto con un codificador de texto.

Arquitectura de Stable Audio, Fuente de la imagen: aquí

El VAE facilita una generación y un entrenamiento más rápidos al comprimir audio estéreo en una codificación latente con pérdida, resistente al ruido e invertible, lo que evita la necesidad de trabajar con muestras de audio en bruto.

El codificador de texto, derivado de un modelo CLAP, desempeña un papel fundamental en la comprensión de las complejas relaciones entre las palabras y los sonidos, ofreciendo una representación informativa del texto de entrada tokenizado. Esto se logra utilizando características de texto de la capa penúltima del codificador de texto CLAP, que luego se integran en la U-Net de difusión a través de capas de atención cruzada.

Un aspecto importante es la incorporación de incrustaciones temporales, que se calculan en base a dos propiedades: el segundo de inicio del fragmento de audio y la duración total del archivo de audio original. Estos valores, traducidos en incrustaciones discretas aprendidas por segundo, se combinan con los tokens de la indicación y se alimentan a las capas de atención cruzada de la U-Net, lo que permite a los usuarios dictar la longitud total del audio de salida.

El modelo de audio estable se entrenó utilizando un extenso conjunto de datos de más de 800,000 archivos de audio, a través de la colaboración con el proveedor de música de stock AudioSparx.

Comerciales de audio estables

Stable Audio ofrece una versión gratuita, que permite 20 generaciones de pistas de hasta 20 segundos al mes, y un plan Pro de $12 al mes, que permite 500 generaciones de pistas de hasta 90 segundos.

A continuación se muestra una muestra de audio que creé usando audio estable.

Imagen generada por el autor usando Midjourney

“Cinematic, Soundtrack Gentle Rainfall, Ambient, Soothing, Distant Dogs Barking, Calming Leaf Rustle, Subtle Wind, 40 BPM”

Las aplicaciones de estas piezas de audio cuidadosamente elaboradas son infinitas. Los cineastas pueden aprovechar esta tecnología para crear paisajes sonoros ricos e inmersivos. En el sector comercial, los anunciantes pueden utilizar estas pistas de audio personalizadas. Además, esta herramienta abre oportunidades para que los creadores y artistas individuales experimenten e innoven, ofreciendo un lienzo de potencial ilimitado para crear piezas de sonido que narren historias, evocan emociones y crean atmósferas con una profundidad que antes era difícil de lograr sin un presupuesto sustancial o experiencia técnica.

Consejos para indicaciones

Crea el audio perfecto utilizando indicaciones de texto. Aquí tienes una guía rápida para comenzar:

Sé detallado: Especifica géneros, estados de ánimo e instrumentos. Por ejemplo: Cinematic, Wild West, Percussion, Tense, Atmospheric
Creación de estados de ánimo: Combina términos musicales y emocionales para transmitir el estado de ánimo deseado.
Elección de instrumentos: Mejora los nombres de los instrumentos con adjetivos, como “Guitarra reverberada” o “Coro poderoso”.
BPM: Alinea el tempo con el género para obtener una salida armónica, como “170 BPM” para una pista de Drum and Bass.

Notas de cierre

Imagen generada por el autor usando Midjourney

En este artículo, hemos profundizado en la música/audio generada por IA, desde composiciones algorítmicas hasta los sofisticados marcos generativos de IA de hoy en día, como MusicLM de Google y Stable Audio. Estas tecnologías, aprovechando el aprendizaje profundo y los modelos de compresión SOTA, no solo mejoran la generación de música, sino que también perfeccionan las experiencias de los oyentes.

Sin embargo, es un ámbito en constante evolución, con desafíos como mantener la coherencia a largo plazo y el debate en curso sobre la autenticidad de la música creada por IA que desafía a los pioneros en este campo. Hace apenas una semana, el revuelo se centraba en una canción creada por IA que canalizaba los estilos de Drake y The Weeknd, que inicialmente se hizo viral en línea a principios de este año. Sin embargo, fue eliminada de la lista de nominaciones al Grammy, lo que muestra el debate en curso en torno a la legitimidad de la música generada por IA en la industria (fuente). A medida que la IA continúa acortando las brechas entre la música y los oyentes, seguramente promueve un ecosistema donde la tecnología coexiste con el arte, fomentando la innovación al tiempo que respeta la tradición.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Generative AINLPPrompt Engineering

Was this article helpful?

93 out of 132 found this helpful

Generación de música a partir de texto Stability Audio, MusicLM de Google y más

El origen de la IA en la música: Un viaje desde la composición algorítmica hasta el modelado generativo

La complejidad de traducir texto a música

MusicLM de Google

Información técnica

Estabilidad de Audio

Información técnica

Consejos para indicaciones

Notas de cierre

Was this article helpful?

La diferencia entre los modelos de código abierto y las APIs comerciales de IA/ML

Industria 4.0 Metaverso Desbloqueado Cómo la Tecnología AR/VR, AI y 3D están Impulsando la Próxima Revolución Industrial

Inteligencia Artificial

Investigadores de IA de KAIST presentan KTRL+F una tarea de búsqueda en documentos aumentada con conocimiento que requiere la identificación en tiempo real de objetivos semánticos dentro de un documento.

Los investigadores de la Universidad de Pennsylvania presentaron un enfoque alternativo de IA para diseñar y programar computadoras de depósito basadas en RNN.

¿Cómo sobrevivir en el mundo de la IA? ¿Está en riesgo tu trabajo?

Esta investigación de IA de China presenta a Character-LLM que enseña a los LLM a actuar como personas específicas como Beethoven, la reina Cleopatra, Julio César, etc.

Herramientas principales de detección de contenido de Inteligencia Artificial (IA)

La cámara detiene los deepfakes al disparar