Investigadores de Sony proponen BigVSAN Revolucionando la calidad de audio con el uso de Slicing Adversarial Networks en vocoders basados en GAN.
Investigadores de Sony proponen BigVSAN para mejorar la calidad de audio utilizando Slicing Adversarial Networks en vocoders basados en GAN.
El desarrollo de redes neuronales y su creciente popularidad han llevado a mejoras sustanciales en las tecnologías de síntesis de voz. La mayoría de los sistemas de síntesis de voz utilizan un método de dos etapas: primero, predicen una representación intermedia a partir del texto de entrada, como los espectrogramas de Mel, y luego convierten esta representación intermedia en formas de onda de audio. El paso final, llamado vocoder, es esencial para producir audio a partir de los espectrogramas de Mel.
Se ha invertido mucho esfuerzo en mejorar la calidad de la síntesis de voz producida por los vocoders. Los modelos generativos profundos, como los modelos autoregresivos, los modelos basados en redes generativas adversarias (GAN), los modelos basados en flujos y los modelos basados en difusión, han demostrado promesas en la producción de formas de onda de alta calidad. Si bien estos modelos generativos profundos necesitan ayuda para lograr una buena calidad de muestra, variedad y muestreo rápido al mismo tiempo, la diversidad del vocoder es menos significativa que en los modelos de generación de imágenes. Los vocoders están diseñados para producir audio que corresponda a un espectrograma de Mel específico, y dado que las GAN pueden generar muestras de alta calidad rápidamente, son una herramienta sólida y útil.
El potencial de las redes generativas adversarias (GAN) para producir eficazmente formas de onda de audio de alta calidad más rápidamente que en tiempo real ha despertado mucho interés en el campo de los vocoders. Sin embargo, un problema con los vocoders basados en GAN es que a menudo tienen dificultades para determinar la mejor proyección del espacio de características para diferenciar entre datos reales y falsos, lo que puede afectar la calidad general del audio que se crea.
- Conoce ResFields Un enfoque novedoso de IA para superar las limitaciones de los campos neurales espaciotemporales en la modelización efectiva de señales temporales largas y complejas.
- Descubriendo los secretos del rendimiento catalítico con Deep Learning Un estudio en profundidad de la Red Neuronal Convolucional ‘Global + Local’ para la detección de alta precisión de catalizadores heterogéneos
- Una nueva investigación de AI de Apple y Equall AI revela redundancias en la arquitectura de Transformer Cómo optimizar la red de avance de alimentación mejora la eficiencia y la precisión
Para abordar estos problemas, un equipo de investigadores de Sony AI en Tokio, Japón, y Sony Group Corporation en Tokio, Japón, ha investigado un marco de entrenamiento de GAN mejorado llamado Slicing Adversarial Network (SAN) en el contexto de tareas de generación de imágenes. Se ha demostrado que SAN encuentra la proyección óptima del espacio de características para mejorar la discriminación entre datos auténticos y fraudulentos. El equipo ha examinado si SAN puede mejorar de manera similar la eficiencia de los vocoders basados en GAN. Para hacer esto, han propuesto un enfoque de modificación para least-squares GAN, una variante popular de GAN en los vocoders. Para el caso de SAN, esta técnica modifica las funciones de pérdida de least-squares GAN.
El equipo ha demostrado a través de una serie de pruebas que implementar el marco de SAN con pequeñas modificaciones puede mejorar el rendimiento de los vocoders basados en GAN, incluido el conocido modelo BigVGAN. Su enfoque contribuye al creciente corpus de investigación sobre la mejora de la síntesis de formas de onda de audio con GAN. El equipo ha llamado al vocoder BigVSAN, que ha sido impulsado por SAN, es decir, el marco de entrenamiento de GAN mejorado, y que tiene la capacidad de superar al vocoder BigVGAN SOTA.
El equipo ha resumido sus principales contribuciones de la siguiente manera:
- Esquema de Monotonización Suave: Se ha introducido un método llamado “monotonización suave” que ajusta los least-squares GAN para convertirse en least-squares SAN, mejorando sus proyecciones en el espacio de características.
- Mejora del Rendimiento: Mediante la implementación de SAN y otras modificaciones, el equipo ha demostrado que los vocoders basados en GAN, incluido el avanzado BigVGAN, pueden producir mejores resultados de audio.
- El equipo ha puesto el código a disposición del público para respaldar la reproducibilidad. Esto permite a otros investigadores replicar los experimentos y construir sobre el trabajo existente, fomentando así la colaboración y el avance en la tecnología de síntesis de audio.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 10 Mejores Herramientas de Extracción de Datos (Septiembre 2023)
- Datos de satélite, incendios forestales y IA Protegiendo la industria vitivinícola ante los desafíos climáticos
- Cómo crear gráficos de mapas con Plotly
- Aprendizaje por Reforzamiento una Introducción Sencilla a la Iteración de Valor
- Crea un sistema de comentarios autogestionado con LangChain y OpenAI
- Por qué tus canalizaciones de datos necesitan un control de retroalimentación en bucle cerrado
- 7 Lecciones del curso de Aprendizaje Profundo de Fast.AI