Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.

Google AI presenta E3-TTS una solución práctica y eficiente de conversión de texto a voz mediante difusión

En el aprendizaje automático, un modelo de difusión es un modelo generativo comúnmente utilizado para tareas de generación de imágenes y audio. El modelo de difusión utiliza un proceso de difusión, transformando una distribución de datos compleja en distribuciones más simples. La ventaja clave radica en su capacidad para generar salidas de alta calidad, especialmente en tareas como síntesis de imágenes y audio.

En el contexto de los sistemas de texto a voz (TTS), la aplicación de modelos de difusión ha revelado mejoras notables en comparación con los sistemas tradicionales de TTS. Este progreso se debe a su capacidad para abordar problemas encontrados por los sistemas existentes, como la dependencia excesiva de la calidad de las características intermedias y la complejidad asociada con los procedimientos de despliegue, entrenamiento y configuración.

Un equipo de investigadores de Google ha formulado E3 TTS: Texto a Voz basado en Difusión Fácil de Extremo a Extremo. Este modelo de texto a voz se basa en el proceso de difusión para mantener la estructura temporal. Este enfoque permite que el modelo tome texto sin formato como entrada y produzca directamente formas de onda de audio.

El modelo E3 TTS procesa eficientemente el texto de entrada de manera no autoregresiva, lo que le permite generar directamente una forma de onda sin requerir procesamiento secuencial. Además, la determinación de la identidad y alineación del hablante ocurre dinámicamente durante la difusión. Este modelo consta de dos módulos principales: se utiliza un modelo BERT preentrenado para extraer información pertinente del texto de entrada, y un modelo de difusión UNet procesa la salida de BERT. Refina iterativamente la forma de onda inicial ruidosa, predicendo finalmente la forma de onda cruda final.

El modelo E3 TTS utiliza un proceso de refinamiento iterativo para generar una forma de onda de audio. Modela la estructura temporal de la forma de onda utilizando el proceso de difusión, permitiendo estructuras latentes flexibles dentro del audio dado sin necesidad de información de condicionamiento adicional.

Está construido sobre un modelo BERT preentrenado. Además, el sistema funciona sin depender de representaciones de voz como fonemas o grafemas. El modelo BERT toma una entrada de subpalabras y su salida es procesada por una estructura U-Net 1D. Incluye bloques de muestreo y remuestreo conectados por conexiones residuales.

E3 TTS utiliza representaciones de texto del modelo de lenguaje BERT preentrenado, aprovechando los desarrollos actuales en modelos de lenguaje grandes. E3 TTS se basa en un modelo de lenguaje de texto preentrenado, agilizando el proceso de generación.

La adaptabilidad del sistema aumenta ya que este modelo se puede entrenar en muchos idiomas utilizando entrada de texto.

La estructura U-Net utilizada en E3 TTS consta de una serie de bloques de muestreo y remuestreo conectados por conexiones residuales. Para mejorar la extracción de información de la salida de BERT, se incorpora una atención cruzada en los bloques superiores de muestreo/remuestreo. Se utiliza un núcleo de Convolutional Neural Network (CNN) softmax adaptativo en los bloques inferiores, con su tamaño de núcleo determinado por el intervalo de tiempo y el hablante. Los embebidos de tiempo de hablante se combinan a través de Modulación Lineal de Características (FiLM), que incluye una capa compuesta para escalar por canal y predecir sesgo.

El downsampler en E3 TTS desempeña un papel crítico en refinar la información ruidosa, convirtiéndola de 24kHz a una secuencia de longitud similar a la salida codificada de BERT, mejorando significativamente la calidad general. Por otro lado, el upsampler predice el ruido con la misma longitud que la forma de onda de entrada.

En resumen, E3 TTS demuestra la capacidad de generar audio de alta fidelidad, acercándose a un nivel de calidad notable en este campo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Corea del Sur proponen VITS2 un avance en los modelos de síntesis de voz de una sola etapa para una mayor naturalidad y eficiencia.

El artículo presenta VITS2, un modelo de síntesis de texto a voz de una sola etapa que sintetiza un habla más natural...

Inteligencia Artificial

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

Los modelos de lenguaje grandes han surgido recientemente como herramientas poderosas para diversas tareas de compren...

Inteligencia Artificial

El acoso sexual y el sesgo de género contra las mujeres en STEM siguen siendo abundantes, según revela un estudio.

Dos tercios de las mujeres profesionales en STEM encuestadas informan ganar menos que sus colegas masculinos.

Inteligencia Artificial

Intérprete de código de ChatGPT Todo lo que necesitas saber

OpenAI ha estado causando sensación con emocionantes anuncios, y el último seguramente complacerá a los usuarios de C...

Inteligencia Artificial

Más desarrolladores están utilizando el lenguaje Rust

La encuesta Estado de Rust 2022 publicada a principios de este mes encontró a más desarrolladores utilizando el lengu...

Inteligencia Artificial

Calculadora de números determina si las ballenas están actuando de manera extraña

Los investigadores aplicaron técnicas estadísticas para diferenciar el comportamiento natural del afectado entre las ...