Una nueva investigación de IA de Italia presenta un modelo generativo basado en difusión capaz tanto de la síntesis musical como de la separación de fuentes
Investigación italiana presenta modelo generativo de IA para síntesis y separación musical.
Los seres humanos son capaces de procesar varias fuentes de sonido al mismo tiempo, tanto en términos de composición musical o síntesis y análisis, es decir, separación de fuentes. En otras palabras, los cerebros humanos pueden separar fuentes de sonido individuales de una mezcla y viceversa, es decir, sintetizar varias fuentes de sonido para formar una combinación coherente. Cuando se trata de expresar matemáticamente este conocimiento, los investigadores utilizan la densidad de probabilidad conjunta de las fuentes. Por ejemplo, las mezclas musicales tienen un contexto tal que la densidad de probabilidad conjunta de las fuentes no se factoriza en el producto de las fuentes individuales.
Actualmente no existe un modelo de aprendizaje profundo que pueda sintetizar muchas fuentes en una mezcla coherente y separar las fuentes individuales de una mezcla. En cuanto a las tareas de composición o generación musical, los modelos aprenden directamente la distribución de las mezclas, lo que ofrece una modelización precisa de la mezcla pero pierde todo conocimiento de las fuentes individuales. Los modelos de separación de fuentes, en cambio, aprenden un modelo único para cada distribución de fuentes y se condicionan a la mezcla en el momento de la inferencia. Así, se pierden todos los detalles cruciales sobre la interdependencia de las fuentes. Es difícil generar mezclas en cualquiera de los escenarios.
Dando un paso hacia la construcción de un modelo de aprendizaje profundo capaz de realizar tanto la separación de fuentes como la generación de música, investigadores del Laboratorio de Investigación GLADIA de la Universidad de Roma han desarrollado el Modelo de Difusión de Múltiples Fuentes (MSDM, por sus siglas en inglés). El modelo se entrena utilizando la densidad de probabilidad conjunta de las fuentes que comparten un contexto, conocida como distribución a priori. La tarea de generación se lleva a cabo mediante muestreo utilizando la distribución a priori, mientras que la tarea de separación se lleva a cabo condicionando la distribución a priori a la mezcla y luego muestreando a partir de la distribución posterior resultante. Este enfoque es un primer paso significativo hacia modelos de audio universales, ya que es un modelo único en su tipo capaz de realizar tanto tareas de generación como de separación.
- Microsoft y los investigadores de Columbia proponen LLM-AUGMENTER un sistema de inteligencia artificial que aumenta un LLM de caja negra con un conjunto de módulos plug-and-play
- La Fascinante Evolución de la Inteligencia Artificial Generativa
- Enel automatiza la gestión de activos de la red eléctrica a gran escala y la detección de anomalías utilizando Amazon SageMaker
Los investigadores utilizaron el conjunto de datos Slakh2100 para sus experimentos. Más de 2100 pistas componen el conjunto de datos Slakh2100, lo que lo convierte en un conjunto de datos estándar para la separación de fuentes. Slakh2100 fue elegido como el conjunto de datos del equipo principalmente porque tiene una cantidad sustancialmente mayor de datos que otros conjuntos de datos de múltiples fuentes, lo cual es crucial para establecer la calidad de un modelo generativo. La base del modelo radica en estimar la distribución conjunta de las fuentes, que es la distribución a priori. Luego, diferentes tareas se resuelven en el momento de la inferencia utilizando la distribución a priori. Además de las tareas clásicas de inferencia total, también se incluyen tareas de inferencia parcial, como la imputación de fuentes, donde se genera un subconjunto de las fuentes dadas las demás (usando una pista de piano que complementa a la batería, por ejemplo).
Los investigadores utilizaron un modelo generativo basado en difusión entrenado utilizando el emparejamiento de puntajes para aprender la distribución a priori. Esta técnica se conoce a menudo como “emparejamiento de puntajes de eliminación de ruido”. La idea clave del emparejamiento de puntajes es aproximar la función de “puntaje” de la distribución objetivo en lugar de la distribución en sí misma. Otra adición significativa realizada por los investigadores fue la introducción de un nuevo método de muestreo basado en funciones delta de Dirac para obtener resultados notables en tareas de separación de fuentes.
Para evaluar su modelo en términos de separación, generación parcial y total, los investigadores realizaron una serie de pruebas. El rendimiento del modelo en tareas de separación estuvo a la altura de otros modelos de regresión de vanguardia. Los investigadores también explicaron que la cantidad de datos contextuales actualmente accesibles limita el rendimiento de su algoritmo. El equipo ha considerado la preseparación de mezclas y su uso como conjunto de datos para abordar el problema. En resumen, el Modelo de Difusión de Múltiples Fuentes para la separación y generación total y parcial en el ámbito musical proporcionado por el Laboratorio de Investigación GLADIA es un paradigma novedoso. El grupo espera que su trabajo anime a otros académicos a realizar investigaciones más profundas en el campo de la música.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Las mejores herramientas de IA para proteger tu futuro (2023)
- Guía paso a paso de Word2Vec con Gensim
- Desbloquea el éxito de DataOps con DataOps.live ¡Destacado en la Guía de Mercado de Gartner!
- Meet TableGPT Un marco unificado ajustado que permite a los LLM comprender y operar en tablas utilizando comandos funcionales externos
- Soluciones eficientes de k-Nearest Neighbors (k-NN) con NumPy
- Profundización en la Interpretabilidad de Modelos con PFI
- Comprendiendo los fundamentos de las redes neuronales y el aprendizaje profundo