Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

Presentación de Translatotron 3 Una arquitectura innovadora de traducción de voz a voz sin supervisión, desarrollada por Google AI

La traducción de voz a voz (S2ST, por sus siglas en inglés) ha sido una tecnología transformadora para romper las barreras del lenguaje, pero la escasez de datos paralelos de voz ha dificultado su progreso. La mayoría de los modelos existentes requieren configuraciones supervisadas y tienen dificultades para aprender la traducción y la reconstrucción de atributos de voz a partir de datos de entrenamiento sintetizados.

En la traducción de voz a voz, modelos anteriores de Google AI, como Translatotron 1 y Translatotron 2, han logrado avances notable al traducir directamente el habla entre idiomas. Sin embargo, estos modelos enfrentaron limitaciones al depender de un entrenamiento supervisado con datos paralelos de voz. El desafío clave radica en la escasez de tales datos paralelos, lo que dificulta el entrenamiento de modelos S2ST. Aquí aparece Translatotron 3, una solución innovadora presentada por un equipo de investigación de Google.

Los investigadores reconocieron que la mayoría de los conjuntos de datos públicos para la traducción de voz están semi o totalmente sintetizados a partir de texto, lo que genera obstáculos adicionales para aprender la traducción y reconstruir con precisión los atributos de voz que pueden necesitar una mejor representación en el texto. En respuesta, la Translatotron 3 representa un cambio de paradigma al introducir el concepto de S2ST no supervisada, que tiene como objetivo aprender la tarea de traducción únicamente a partir de datos monolingües. Esta innovación amplía el potencial de traducción entre diferentes pares de idiomas e introduce la capacidad de traducir atributos de voz no textuales, como pausas, velocidades de habla e identidad del hablante.

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

La arquitectura de Translatotron 3 está diseñada con tres aspectos clave para abordar los desafíos de S2ST no supervisado:

Pre-entrenamiento como un autoencoder enmascarado con SpecAugment: Todo el modelo se pre-entrena como un autoencoder enmascarado, utilizando SpecAugment, un método simple de aumento de datos para el reconocimiento de voz. SpecAugment opera en el espectrograma mel logarítmico de la entrada de audio, mejorando las capacidades de generalización del codificador.
Mapeo de incrustación no supervisada basado en incrustaciones no supervisadas multilingües (MUSE): Translatotron 3 aprovecha MUSE, una técnica entrenada en idiomas no pareados que permite al modelo aprender un espacio de incrustación compartido entre los idiomas de origen y destino. Este espacio compartido de incrustación facilita una codificación más eficiente y efectiva del habla de entrada.
Pérdida de reconstrucción a través de la retrotraducción: El modelo se entrena utilizando una combinación de pérdida de incrustación MUSE no supervisada, pérdida de reconstrucción y pérdida de retrotraducción S2S. Durante la inferencia, un codificador compartido codifica la entrada en un espacio de incrustación multilingüe, que luego se decodifica por el decodificador del idioma objetivo.

La metodología de entrenamiento de Translatotron 3 consiste en un autoencodificador con reconstrucción y un término de retrotraducción. En la primera parte, la red se entrena para auto-codificar la entrada en un espacio de incrustación multilingüe utilizando la pérdida de MUSE y la pérdida de reconstrucción. Esta fase tiene como objetivo garantizar que la red genere representaciones multilingües significativas. La red se entrena aún más para traducir el espectrograma de entrada utilizando la pérdida de retrotraducción en la segunda parte. Para reforzar la naturaleza multilingüe del espacio latente, la pérdida de MUSE y la pérdida de reconstrucción se aplican en esta segunda parte del entrenamiento. SpecAugment se aplica a la entrada del codificador en ambas fases para garantizar que se aprendan propiedades significativas.

La evaluación empírica de Translatotron 3 demuestra su superioridad sobre un sistema de cascada de referencia, destacando especialmente en la preservación de matices de conversación. El modelo supera en calidad de traducción, similitud de hablante y calidad de habla. A pesar de ser un método no supervisado, Translatotron 3 es una solución robusta, mostrando resultados notables en comparación con los sistemas existentes. Su capacidad para lograr una naturalidad del habla comparable a las muestras de audio reales, medida por la Puntuación de Opinión Media (MOS), subraya su eficacia en escenarios del mundo real.

Al abordar el desafío de S2ST no supervisado debido a la escasez de datos paralelos de habla, Translatotron 3 se presenta como una solución pionera. Al aprender de datos monolingües y aprovechar MUSE, el modelo logra una calidad de traducción superior y preserva atributos esenciales de habla no textual. El enfoque innovador del equipo de investigación representa un paso significativo hacia la creación de una traducción de habla a habla más versátil y efectiva en diversos pares de idiomas. El éxito de Translatotron 3 al superar a los modelos existentes demuestra su potencial para revolucionar el campo y mejorar la comunicación entre diversas comunidades lingüísticas. En trabajos futuros, el equipo tiene como objetivo extender el modelo a más idiomas y explorar su aplicabilidad en escenarios de S2ST sin entrenamiento previo, ampliando potencialmente su impacto en la comunicación global.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage Model

Was this article helpful?

93 out of 132 found this helpful

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

Presentación de Investigación de Google AI, Translatotron 3 Una arquitectura novedosa de traducción de voz a voz sin supervisión

Was this article helpful?

DynamoDB vs. Cassandra Elegir la Base de Datos Correcta para tu Negocio

Tencent AI Lab presenta GPT4Video un modelo de lenguaje grande multimodal unificado para la comprensión de instrucciones y la generación consciente de seguridad.

Inteligencia Artificial

El debate sobre la seguridad de la IA está dividiendo Silicon Valley

IA que enseña a otras IA

Principales extensiones de Chrome con inteligencia artificial AI

Investigadores enseñan a una IA a escribir mejores leyendas de gráficos

DeepMind pronostica con precisión el clima en una computadora de escritorio

Gafas de realidad virtual para ratones crean escenarios inmersivos para la investigación cerebral