¿Puede un modelo de IA dominar todas las tareas de audio? Conoce UniAudio un nuevo sistema universal de generación de audio

¿Puede un modelo de IA dominar todas las tareas de audio? Descubre UniAudio, un novedoso sistema universal de generación de audio

Un aspecto clave de la inteligencia artificial generativa es la generación de audio. En los últimos años, la popularidad de la inteligencia artificial generativa ha llevado a una creciente diversidad y a necesidades emergentes en la producción de audio. Por ejemplo, se espera que las tecnologías de texto a sonido y texto a música produzcan audio basado en las solicitudes humanas para la síntesis del habla (TTS), conversión de voz (VC), síntesis de voz cantada (SVS) y conversión de voz (VC). La mayoría de los esfuerzos anteriores en trabajos de creación de audio tienen diseños específicos de tarea que dependen en gran medida de la experiencia en el dominio y solo se pueden usar en configuraciones fijas. El objetivo de este estudio es crear una generación de audio universal, que maneje numerosos trabajos de generación de audio con un modelo unificado en lugar de manejar cada tarea individualmente. 

Se prevé que el modelo de generación de audio universal acumule suficiente conocimiento pasado en audio y modalidades relacionadas, lo que puede ofrecer soluciones sencillas y eficientes para la creciente necesidad de crear una variedad de audio. El rendimiento excepcional de la tecnología Large Language Model (LLM) en trabajos de generación de texto ha inspirado varios modelos de generación de audio basados en LLM. Entre estos estudios, la independencia de LLM en tareas como la conversión de texto a voz (TTS) y la producción de música ha recibido un estudio sustancial y tiene un rendimiento competitivo. Sin embargo, el potencial de LLM para manejar numerosos trabajos necesita ser más utilizado en la investigación de generación de audio, ya que la mayoría de los trabajos basados en LLM todavía se centran en tareas individuales. 

Argumentan que el paradigma LLM tiene potencial para alcanzar la universalidad y variedad en la creación de audio, pero aún no se ha investigado a fondo. En este estudio, investigadores de la Universidad de Hong Kong, la Universidad Carnegie Mellon, Microsoft Research Asia y la Universidad de Zhejiang presentan UniAudio, que utiliza enfoques de LLM para producir una variedad de géneros de audio (discurso, ruidos, música y canto) basándose en varias modalidades de entrada, incluyendo secuencias de fonemas, descripciones de texto y audio en sí. A continuación se presentan las características clave de UniAudio planificado: todos los formatos de audio y modalidades de entrada se tokenizan primero como secuencias discretas. Para tokenizar con éxito el audio independientemente del formato de audio, se desarrolla un modelo de códec neural universal y se utilizan varios tokenizadores para tokenizar varias modalidades de entrada.

https://arxiv.org/abs/2310.00704

Luego, UniAudio combina el par de origen-destino en una sola secuencia. Finalmente, UniAudio utiliza LLM para llevar a cabo la predicción del siguiente token. La técnica de tokenización utiliza cuantización vectorial residual basada en códecs neuronales, produciendo secuencias de tokens excesivamente largas (un equivalente de varios tokens a un fotograma) que LLM no puede analizar de manera efectiva. La correlación intra e inter-frames se modela de forma independiente en una arquitectura de Transformer a múltiples escalas destinada a disminuir la complejidad computacional. En particular, un módulo global de Transformer representa la correlación entre los fotogramas (por ejemplo, a nivel semántico). En contraste, un módulo local de Transformer modela la correlación dentro de los fotogramas (por ejemplo, a nivel acústico). La construcción de UniAudio involucra dos pasos para mostrar su escalabilidad para nuevos proyectos.

En primer lugar, el UniAudio propuesto se entrena en simultáneo en varias tareas de generación de audio, lo que le da al modelo suficiente conocimiento previo tanto de las cualidades inherentes del audio como de las relaciones entre el audio y otras modalidades de entrada. En segundo lugar, con algunos ajustes mínimos, el modelo entrenado será capaz de adaptarse a más actividades de creación de audio que no son visibles. Debido a que puede adaptarse continuamente a las demandas emergentes en la generación de audio, UniAudio tiene el potencial de convertirse en un modelo base para la generación de audio universal. Su UniAudio admite experimentalmente 11 tareas de generación de audio: la etapa de entrenamiento cubre siete trabajos de generación de audio y el paso de ajuste fino agrega cuatro tareas. Para adaptarse a 165 mil horas de audio y 1B de parámetros, se ha aumentado el método de construcción de UniAudio.

UniAudio logra consistentemente un rendimiento competitivo en las 11 tareas, según los estándares objetivos y subjetivos. Incluso se logran resultados modernos para la mayoría de estas tareas. Más investigaciones indican que la práctica de varias actividades simultáneamente en la etapa de entrenamiento beneficia a todas las tareas incluidas. Además, UniAudio supera a los modelos específicos de tarea con una diferencia no trivial y puede adaptarse rápidamente a nuevas cargas de trabajo de generación de audio. En conclusión, su trabajo muestra que desarrollar modelos de generación de audio universales es importante, esperanzador y ventajoso.

La siguiente es un resumen de las principales contribuciones de este trabajo:

(1) Para lograr la generación de audio universal, se presenta UniAudio como una solución única para 11 tareas de generación de audio, que es mayor que todos los esfuerzos anteriores en el campo.

(2) En cuanto a la técnica, UniAudio ofrece ideas frescas para (i) representaciones secuenciales de audio y otras modalidades de entrada, (ii) formulación consistente para tareas de producción de audio basadas en LLM y (iii) arquitectura de modelo efectiva creada especialmente para generación de audio.

(3) Los resultados de extensas pruebas verifican el rendimiento general de UniAudio y demuestran las ventajas de crear un paradigma flexible de generación de audio.

(4) La demostración y el código fuente de UniAudio están disponibles públicamente, con la esperanza de que ayuden a la producción emergente de audio en futuros estudios como modelo base.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

GPT-4 8 Modelos en Uno; El Secreto ha Sido Revelado

GPT4 mantuvo el modelo en secreto para evitar la competencia, ¡ahora el secreto está revelado!

Inteligencia Artificial

Este artículo AI propone AugGPT un enfoque de ampliación de datos de texto basado en ChatGPT.

NLP, o Procesamiento del Lenguaje Natural, es un campo de la IA que se centra en la interacción entre humanos y compu...

Inteligencia Artificial

LastMile AI lanza AiConfig un marco de desarrollo de aplicaciones de IA basado en configuración de código abierto y compatible con el control de fuente.

En el ámbito en constante evolución del desarrollo de aplicaciones de inteligencia artificial, AI Config de LastMile ...

Inteligencia Artificial

AlphaFold, Herramientas similares podrían ayudar en la preparación para la próxima pandemia

Los investigadores cada vez más están utilizando la inteligencia artificial para ayudar a prepararse para futuras pan...

Investigación

Un sistema robótico de cuatro patas para jugar al fútbol en diversos terrenos.

DribbleBot puede maniobrar un balón de fútbol en terrenos como arena, grava, barro y nieve, utilizando el aprendizaje...