Generar música a partir de texto utilizando Google MusicLM

'Generate music from text using Google MusicLM.'

Presentamos el último avance en el modelo de música de IA de Google.

El desarrollo de la IA se ha vuelto más grande que nunca, especialmente en el campo de la IA Generativa. Desde generar texto similar a una conversación con personas hasta generar imágenes a partir de texto, todo esto ahora es posible.

Ese avance también llega al campo de la generación de música, como lo demuestra Google, que lanzó un modelo de generación de música llamado MusicLM. Este modelo fue lanzado en enero de 2023, y las personas han estado probando sus capacidades desde entonces. Entonces, ¿qué es MusicLM en detalle y cómo puedes probarlo? Vamos a discutirlo.

Google MusicLM

MusicLM fue presentado por primera vez en el artículo de Agostinelli et al. (2023), donde el grupo de investigación explicó MusicLM como un modelo para generar música de alta fidelidad a partir de una descripción textual. El modelo se construye principalmente sobre AudioLM, y los experimentos mostraron que el modelo podía producir varios minutos de música de alta calidad a 24 kHz, manteniendo al mismo tiempo la descripción del texto.

Además, la investigación produce un conjunto de datos público de texto a música llamado musiccaps, para cualquier persona que desee desarrollar un modelo similar o ampliar la investigación. Los datos son seleccionados y curados manualmente por músicos profesionales.

Además, MusicLM ha sido desarrollado siguiendo prácticas responsables de desarrollo de modelos para personas que temen la posible apropiación indebida de contenido creativo debido a la generación de música. Al expandir el trabajo de Carlini et al. (2022), el token generado por MusicLM es significativamente diferente a los datos de entrenamiento.

Probando MusicLM

Si quieres explorar una muestra de los resultados de MusicLM, el grupo de investigación de Google ha proporcionado un sitio web sencillo para que podamos ver qué tan capaz es MusicLM. Por ejemplo, puedes explorar las muestras de audio generadas a partir del título del texto en el sitio web.

Otro ejemplo es mi muestra favorita, la generación de música en modo historia, donde diferentes estilos de música se pueden integrar en uno solo utilizando varios títulos de texto.

También es posible generar música basada en el título de una pintura, capturando posiblemente el estado de ánimo de la imagen.

El resultado suena increíble, pero ¿cómo podemos probar el modelo? Afortunadamente, Google ha aceptado el registro para probar MusicLM desde mayo de 2023 en el AI Test Kitchen. Ve al sitio web y regístrate con tu cuenta de Google.

Después del registro, tendríamos que esperar nuestro turno para probar MusicLM. Así que mantén tus ojos en tu correo electrónico.

Eso es todo por ahora; espero que puedas tener tu turno pronto para probar el emocionante MusicLM.

Conclusión

MusicLM es un modelo del grupo de investigación de Google para generar música a partir de un texto. El modelo puede proporcionar varios minutos de música de alta calidad mientras sigue las instrucciones del texto. Podemos probar MusicLM registrándonos en el AI Test Kitchen. Sin embargo, podemos visitar el sitio web de investigación de Google si solo estamos interesados en el resultado de muestra. Cornellius Yudha Wijaya es un asistente de gestión de ciencia de datos y escritor de datos. Mientras trabaja a tiempo completo en Allianz Indonesia, le encanta compartir consejos de Python y datos a través de redes sociales y medios de escritura.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Natural Language Processing

Was this article helpful?

93 out of 132 found this helpful

Generar música a partir de texto utilizando Google MusicLM

Google MusicLM

Probando MusicLM

Conclusión

Was this article helpful?

Potenciando conocimientos sobre la Web 3.0 y Blockchain

Principales herramientas de Inteligencia Empresarial 2023

Aprendizaje Automático

Salesforce AI ha desarrollado un nuevo algoritmo de edición llamado EDICT que realiza la generación de difusión de texto a imagen con un proceso invertible dado cualquier modelo de difusión existente.

Últimos avances en el campo de la IA multimodal (ChatGPT + DALLE 3) + (Google BARD + extensiones) y muchos más…

Investigadores de Microsoft presentan Hydra-RLHF Una solución eficiente en memoria para el aprendizaje por refuerzo con retroalimentación humana

Alibaba AI libera en código abierto la serie Qwen que incluye Qwen-1.8B, Qwen-7B, Qwen-14B y Qwen-72B junto con la serie Qwen-Chat.

Meta AI presenta I-JEPA revolucionario Un gran salto innovador en la visión por computadora que emula el aprendizaje y el razonamiento humano y animal.