Una nueva investigación de IA de Italia presenta un modelo generativo basado en difusión capaz tanto de la síntesis musical como de la separación de fuentes

Investigación italiana presenta modelo generativo de IA para síntesis y separación musical.

Los seres humanos son capaces de procesar varias fuentes de sonido al mismo tiempo, tanto en términos de composición musical o síntesis y análisis, es decir, separación de fuentes. En otras palabras, los cerebros humanos pueden separar fuentes de sonido individuales de una mezcla y viceversa, es decir, sintetizar varias fuentes de sonido para formar una combinación coherente. Cuando se trata de expresar matemáticamente este conocimiento, los investigadores utilizan la densidad de probabilidad conjunta de las fuentes. Por ejemplo, las mezclas musicales tienen un contexto tal que la densidad de probabilidad conjunta de las fuentes no se factoriza en el producto de las fuentes individuales.

Actualmente no existe un modelo de aprendizaje profundo que pueda sintetizar muchas fuentes en una mezcla coherente y separar las fuentes individuales de una mezcla. En cuanto a las tareas de composición o generación musical, los modelos aprenden directamente la distribución de las mezclas, lo que ofrece una modelización precisa de la mezcla pero pierde todo conocimiento de las fuentes individuales. Los modelos de separación de fuentes, en cambio, aprenden un modelo único para cada distribución de fuentes y se condicionan a la mezcla en el momento de la inferencia. Así, se pierden todos los detalles cruciales sobre la interdependencia de las fuentes. Es difícil generar mezclas en cualquiera de los escenarios.

Dando un paso hacia la construcción de un modelo de aprendizaje profundo capaz de realizar tanto la separación de fuentes como la generación de música, investigadores del Laboratorio de Investigación GLADIA de la Universidad de Roma han desarrollado el Modelo de Difusión de Múltiples Fuentes (MSDM, por sus siglas en inglés). El modelo se entrena utilizando la densidad de probabilidad conjunta de las fuentes que comparten un contexto, conocida como distribución a priori. La tarea de generación se lleva a cabo mediante muestreo utilizando la distribución a priori, mientras que la tarea de separación se lleva a cabo condicionando la distribución a priori a la mezcla y luego muestreando a partir de la distribución posterior resultante. Este enfoque es un primer paso significativo hacia modelos de audio universales, ya que es un modelo único en su tipo capaz de realizar tanto tareas de generación como de separación.

Los investigadores utilizaron el conjunto de datos Slakh2100 para sus experimentos. Más de 2100 pistas componen el conjunto de datos Slakh2100, lo que lo convierte en un conjunto de datos estándar para la separación de fuentes. Slakh2100 fue elegido como el conjunto de datos del equipo principalmente porque tiene una cantidad sustancialmente mayor de datos que otros conjuntos de datos de múltiples fuentes, lo cual es crucial para establecer la calidad de un modelo generativo. La base del modelo radica en estimar la distribución conjunta de las fuentes, que es la distribución a priori. Luego, diferentes tareas se resuelven en el momento de la inferencia utilizando la distribución a priori. Además de las tareas clásicas de inferencia total, también se incluyen tareas de inferencia parcial, como la imputación de fuentes, donde se genera un subconjunto de las fuentes dadas las demás (usando una pista de piano que complementa a la batería, por ejemplo).

Los investigadores utilizaron un modelo generativo basado en difusión entrenado utilizando el emparejamiento de puntajes para aprender la distribución a priori. Esta técnica se conoce a menudo como “emparejamiento de puntajes de eliminación de ruido”. La idea clave del emparejamiento de puntajes es aproximar la función de “puntaje” de la distribución objetivo en lugar de la distribución en sí misma. Otra adición significativa realizada por los investigadores fue la introducción de un nuevo método de muestreo basado en funciones delta de Dirac para obtener resultados notables en tareas de separación de fuentes.

Para evaluar su modelo en términos de separación, generación parcial y total, los investigadores realizaron una serie de pruebas. El rendimiento del modelo en tareas de separación estuvo a la altura de otros modelos de regresión de vanguardia. Los investigadores también explicaron que la cantidad de datos contextuales actualmente accesibles limita el rendimiento de su algoritmo. El equipo ha considerado la preseparación de mezclas y su uso como conjunto de datos para abordar el problema. En resumen, el Modelo de Difusión de Múltiples Fuentes para la separación y generación total y parcial en el ámbito musical proporcionado por el Laboratorio de Investigación GLADIA es un paradigma novedoso. El grupo espera que su trabajo anime a otros académicos a realizar investigaciones más profundas en el campo de la música.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Deja de usar PowerPoint para tus presentaciones de ML y prueba esto en su lugar

Las malas presentaciones de PowerPoint crean audiencias distraídas (que apagan sus cámaras y realizan varias tareas a...

Ciencia de Datos

Haz que cada dólar de marketing cuente con la ciencia de datos.

La economía actual nos exige ser más diligentes en el gasto publicitario. Afortunadamente, los caminos viables para u...

Inteligencia Artificial

Aprendizaje adaptativo a través de la difusión Un paradigma de vanguardia

Introducción En el dinámico panorama de la educación y el aprendizaje automático, la integración del Aprendizaje Adap...

Inteligencia Artificial

Desde el Internet de las Cosas hasta el Internet de Todo La Convergencia de la IA y el 6G para una Inteligencia Conectada

Aprende cómo las tecnologías de vanguardia como la Inteligencia Artificial y el 6G inaugurarán una nueva era de siste...