Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.

Google AI presenta E3-TTS una solución práctica y eficiente de conversión de texto a voz mediante difusión

En el aprendizaje automático, un modelo de difusión es un modelo generativo comúnmente utilizado para tareas de generación de imágenes y audio. El modelo de difusión utiliza un proceso de difusión, transformando una distribución de datos compleja en distribuciones más simples. La ventaja clave radica en su capacidad para generar salidas de alta calidad, especialmente en tareas como síntesis de imágenes y audio.

En el contexto de los sistemas de texto a voz (TTS), la aplicación de modelos de difusión ha revelado mejoras notables en comparación con los sistemas tradicionales de TTS. Este progreso se debe a su capacidad para abordar problemas encontrados por los sistemas existentes, como la dependencia excesiva de la calidad de las características intermedias y la complejidad asociada con los procedimientos de despliegue, entrenamiento y configuración.

Un equipo de investigadores de Google ha formulado E3 TTS: Texto a Voz basado en Difusión Fácil de Extremo a Extremo. Este modelo de texto a voz se basa en el proceso de difusión para mantener la estructura temporal. Este enfoque permite que el modelo tome texto sin formato como entrada y produzca directamente formas de onda de audio.

El modelo E3 TTS procesa eficientemente el texto de entrada de manera no autoregresiva, lo que le permite generar directamente una forma de onda sin requerir procesamiento secuencial. Además, la determinación de la identidad y alineación del hablante ocurre dinámicamente durante la difusión. Este modelo consta de dos módulos principales: se utiliza un modelo BERT preentrenado para extraer información pertinente del texto de entrada, y un modelo de difusión UNet procesa la salida de BERT. Refina iterativamente la forma de onda inicial ruidosa, predicendo finalmente la forma de onda cruda final.

El modelo E3 TTS utiliza un proceso de refinamiento iterativo para generar una forma de onda de audio. Modela la estructura temporal de la forma de onda utilizando el proceso de difusión, permitiendo estructuras latentes flexibles dentro del audio dado sin necesidad de información de condicionamiento adicional.

Está construido sobre un modelo BERT preentrenado. Además, el sistema funciona sin depender de representaciones de voz como fonemas o grafemas. El modelo BERT toma una entrada de subpalabras y su salida es procesada por una estructura U-Net 1D. Incluye bloques de muestreo y remuestreo conectados por conexiones residuales.

E3 TTS utiliza representaciones de texto del modelo de lenguaje BERT preentrenado, aprovechando los desarrollos actuales en modelos de lenguaje grandes. E3 TTS se basa en un modelo de lenguaje de texto preentrenado, agilizando el proceso de generación.

La adaptabilidad del sistema aumenta ya que este modelo se puede entrenar en muchos idiomas utilizando entrada de texto.

La estructura U-Net utilizada en E3 TTS consta de una serie de bloques de muestreo y remuestreo conectados por conexiones residuales. Para mejorar la extracción de información de la salida de BERT, se incorpora una atención cruzada en los bloques superiores de muestreo/remuestreo. Se utiliza un núcleo de Convolutional Neural Network (CNN) softmax adaptativo en los bloques inferiores, con su tamaño de núcleo determinado por el intervalo de tiempo y el hablante. Los embebidos de tiempo de hablante se combinan a través de Modulación Lineal de Características (FiLM), que incluye una capa compuesta para escalar por canal y predecir sesgo.

El downsampler en E3 TTS desempeña un papel crítico en refinar la información ruidosa, convirtiéndola de 24kHz a una secuencia de longitud similar a la salida codificada de BERT, mejorando significativamente la calidad general. Por otro lado, el upsampler predice el ruido con la misma longitud que la forma de onda de entrada.

En resumen, E3 TTS demuestra la capacidad de generar audio de alta fidelidad, acercándose a un nivel de calidad notable en este campo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

Google AI propone E3-TTS, una solución sencilla y eficiente de texto a voz basada en difusión para convertir texto en voz de manera fácil y completa.

Was this article helpful?

Desbloqueando el potencial de la Observabilidad con IA

Los Modelos 3D del Cuerpo Ahora Tienen Sonido Meta AI Introduce un Modelo de Inteligencia Artificial que Puede Generar Audio Espacial 3D Preciso para Cuerpos Humanos Completos

Inteligencia Artificial

Investigadores de Corea del Sur proponen VITS2 un avance en los modelos de síntesis de voz de una sola etapa para una mayor naturalidad y eficiencia.

¿Podemos superar la fragilidad inmediata en los modelos de lenguaje grandes? La IA de Google presenta la calibración por lotes para un rendimiento mejorado.

El acoso sexual y el sesgo de género contra las mujeres en STEM siguen siendo abundantes, según revela un estudio.

Intérprete de código de ChatGPT Todo lo que necesitas saber

Más desarrolladores están utilizando el lenguaje Rust

Calculadora de números determina si las ballenas están actuando de manera extraña