Investigadores de Sony proponen BigVSAN Revolucionando la calidad de audio con el uso de Slicing Adversarial Networks en vocoders basados en GAN.

Investigadores de Sony proponen BigVSAN para mejorar la calidad de audio utilizando Slicing Adversarial Networks en vocoders basados en GAN.

El desarrollo de redes neuronales y su creciente popularidad han llevado a mejoras sustanciales en las tecnologías de síntesis de voz. La mayoría de los sistemas de síntesis de voz utilizan un método de dos etapas: primero, predicen una representación intermedia a partir del texto de entrada, como los espectrogramas de Mel, y luego convierten esta representación intermedia en formas de onda de audio. El paso final, llamado vocoder, es esencial para producir audio a partir de los espectrogramas de Mel.

Se ha invertido mucho esfuerzo en mejorar la calidad de la síntesis de voz producida por los vocoders. Los modelos generativos profundos, como los modelos autoregresivos, los modelos basados en redes generativas adversarias (GAN), los modelos basados en flujos y los modelos basados en difusión, han demostrado promesas en la producción de formas de onda de alta calidad. Si bien estos modelos generativos profundos necesitan ayuda para lograr una buena calidad de muestra, variedad y muestreo rápido al mismo tiempo, la diversidad del vocoder es menos significativa que en los modelos de generación de imágenes. Los vocoders están diseñados para producir audio que corresponda a un espectrograma de Mel específico, y dado que las GAN pueden generar muestras de alta calidad rápidamente, son una herramienta sólida y útil.

El potencial de las redes generativas adversarias (GAN) para producir eficazmente formas de onda de audio de alta calidad más rápidamente que en tiempo real ha despertado mucho interés en el campo de los vocoders. Sin embargo, un problema con los vocoders basados en GAN es que a menudo tienen dificultades para determinar la mejor proyección del espacio de características para diferenciar entre datos reales y falsos, lo que puede afectar la calidad general del audio que se crea.

Para abordar estos problemas, un equipo de investigadores de Sony AI en Tokio, Japón, y Sony Group Corporation en Tokio, Japón, ha investigado un marco de entrenamiento de GAN mejorado llamado Slicing Adversarial Network (SAN) en el contexto de tareas de generación de imágenes. Se ha demostrado que SAN encuentra la proyección óptima del espacio de características para mejorar la discriminación entre datos auténticos y fraudulentos. El equipo ha examinado si SAN puede mejorar de manera similar la eficiencia de los vocoders basados en GAN. Para hacer esto, han propuesto un enfoque de modificación para least-squares GAN, una variante popular de GAN en los vocoders. Para el caso de SAN, esta técnica modifica las funciones de pérdida de least-squares GAN.

El equipo ha demostrado a través de una serie de pruebas que implementar el marco de SAN con pequeñas modificaciones puede mejorar el rendimiento de los vocoders basados en GAN, incluido el conocido modelo BigVGAN. Su enfoque contribuye al creciente corpus de investigación sobre la mejora de la síntesis de formas de onda de audio con GAN. El equipo ha llamado al vocoder BigVSAN, que ha sido impulsado por SAN, es decir, el marco de entrenamiento de GAN mejorado, y que tiene la capacidad de superar al vocoder BigVGAN SOTA.

El equipo ha resumido sus principales contribuciones de la siguiente manera:

  1. Esquema de Monotonización Suave: Se ha introducido un método llamado “monotonización suave” que ajusta los least-squares GAN para convertirse en least-squares SAN, mejorando sus proyecciones en el espacio de características.
  1. Mejora del Rendimiento: Mediante la implementación de SAN y otras modificaciones, el equipo ha demostrado que los vocoders basados en GAN, incluido el avanzado BigVGAN, pueden producir mejores resultados de audio.
  1. El equipo ha puesto el código a disposición del público para respaldar la reproducibilidad. Esto permite a otros investigadores replicar los experimentos y construir sobre el trabajo existente, fomentando así la colaboración y el avance en la tecnología de síntesis de audio.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

OpenAI presenta GPTBot un rastreador web diseñado para extraer datos de toda la Internet automáticamente

OpenAI ha respondido a las preocupaciones de privacidad y propiedad intelectual derivadas de la recopilación de datos...

Ciencia de Datos

Series de tiempo para el cambio climático Pronóstico de demanda origen-destino

La minería de datos de vehículos en movimiento es una tarea clave en los sistemas de transporte inteligentes. Los dat...

Aprendizaje Automático

Si el arte es cómo expresamos nuestra humanidad, ¿dónde encaja la IA?

El postdoctorado del MIT Ziv Epstein SM '19, PhD '23 discute los problemas que surgen del uso de la inteligencia arti...