Conoce a SeamlessM4T el nuevo modelo base de Meta AI para la traducción de voz

Conoce a SeamlessM4T, el nuevo modelo base de Meta AI para traducción de voz.

El modelo proporciona una arquitectura única y un rendimiento innovador en diferentes tareas de traducción de voz.

Creado usando Midjourney

Recientemente comencé un boletín educativo centrado en inteligencia artificial, que ya cuenta con más de 160,000 suscriptores. TheSequence es un boletín orientado a la IA (es decir, sin exageraciones, sin noticias, etc.) que se lee en 5 minutos. El objetivo es mantenerte actualizado sobre proyectos de aprendizaje automático, documentos de investigación y conceptos. Por favor, pruébalo suscribiéndote a continuación:

TheSequence | Jesus Rodriguez | Substack

La mejor fuente para mantenerte actualizado sobre los avances en el aprendizaje automático, la inteligencia artificial y los datos…

thesequence.substack.com

El habla se está convirtiendo rápidamente en una de las próximas fronteras de los modelos de base. Mientras que dominios como el lenguaje y la visión por computadora siguen dominando los titulares, el habla se está convirtiendo en un dominio cada vez más importante. Áreas como la traducción de habla a habla (S2ST) se han basado en arquitecturas en cascada que combinan una gran cantidad de componentes para realizar la traducción de manera progresiva. El resultado es que el espacio no ha mostrado el mismo progreso que otras áreas de los modelos de base. Recientemente, Meta AI Research dio a conocer la investigación detrás de SeamlessM4T, un modelo de base de habla unificado y masivamente multilingüe y multimodal para diferentes tareas de traducción de habla.

En el ecosistema actual de modelos de base, los sistemas de traducción automática (MT) existentes giran predominantemente en torno al texto, dejando de lado el soporte de habla, si es que existe. La integración del habla en el panorama de la traducción automática a menudo se ha relegado a un segundo plano en comparación con su contraparte basada en texto. A pesar de los logros de los modelos unimodales individuales, todavía queda lejos la realización de modelos S2ST unificados que logren una amplitud y eficacia comparables. Esta discrepancia arraigada en las modalidades se puede atribuir a varios factores, pero la escasez de datos de audio y las limitaciones del modelado persisten como obstáculos prominentes. La complejidad misma que hace que el habla sea un desafío más difícil desde una perspectiva de traducción automática, su capacidad para codificar información más rica y elementos expresivos, también es lo que lo hace superior para transmitir intenciones y cultivar conexiones sociales robustas entre los participantes de una conversación.

El panorama actual de estos sistemas se caracteriza por tres deficiencias principales.

1. El enfoque de los modelos de traducción de habla se inclina predominantemente hacia idiomas de alto recurso como inglés, español y francés, descuidando a menudo los idiomas de bajo recurso.

2. Predominantemente se enfocan en traducciones desde idiomas de origen hacia el inglés, en lugar de la dirección recíproca.

3. La mayoría de los sistemas S2ST en la actualidad dependen en gran medida de marcos en cascada, compuestos por múltiples subsistemas sucesivos que manejan la traducción en etapas, comenzando con el reconocimiento automático del habla (ASR), pasando a T2TT y culminando en la síntesis de texto a voz (TTS) como parte de una arquitectura de tres niveles.

Los esfuerzos por unificar estas capacidades multifacéticas dentro de una entidad cohesiva única han dado lugar a versiones iniciales de sistemas de traducción de habla de extremo a extremo. Sin embargo, estos sistemas aún no han alcanzado los puntos de referencia de rendimiento establecidos por sus contrapartes en cascada.

SeamlessM4T

SeamlessM4T (Traducción de Máquina Masivamente Multilingüe y Multimodal) es una plataforma integrada que abarca ASR, T2TT, traducción de habla a texto (S2TT), traducción de texto a habla (T2ST) y funcionalidades S2ST. El modelo se basa en una larga historia de avances de Meta AI en el espacio de la traducción de habla. Destacado, Meta AI introdujo No Language Left Behind (NLLB) en el año anterior, un modelo de traducción de máquina de texto a texto diseñado para abarcar impresionantes 200 idiomas. En los meses siguientes, Meta AI presentó el pionero Universal Speech Translator. Este sistema innovador facilitó la traducción directa de habla a habla para el idioma Hokkien, caracterizado por la ausencia de un sistema de escritura ampliamente adoptado. Este esfuerzo también dio lugar a la creación de SpeechMatrix, un conjunto de datos de traducción de habla a habla multilingüe monumental. Este conjunto de datos, nacido de la innovación de SpeechLASER, marcó un hito en el ámbito del aprendizaje de representaciones supervisadas. Un paso posterior se materializó a principios de este año con la presentación de Massively Multilingual Speech. Esta oferta integral abarcó el reconocimiento automático del habla, la identificación de idiomas y las capacidades de síntesis de habla que abarcan una amplia variedad de más de 1,100 idiomas.

Crédito de la imagen: Meta AI

SeamlessM4T emerge, sintetizando ideas obtenidas de estos diversos proyectos. El resultado es una experiencia de traducción multilingüe y multimodal transformadora, procedente de un modelo único. Este modelo está meticulosamente construido, tomando como base un amplio espectro de fuentes de datos orales y culminando en resultados de última generación.

Para construir un modelo unificado, Meta AI requiere un kit de herramientas de modelado de secuencias liviano que pueda integrarse fácilmente con otras bibliotecas modernas del ecosistema PyTorch. Para satisfacer esta necesidad, Meta AI ha rediseñado fairseq, su kit de herramientas original de modelado de secuencias. Al incorporar API de modelado y carga de datos más eficientes, fairseq2 ahora desempeña un papel fundamental en el impulso de los procesos de modelado subyacentes de SeamlessM4T.

Crédito de la imagen: Meta AI

En el centro del modelo se encuentra la arquitectura multitarea UnitY, diseñada para realizar una variedad de funciones, incluida la generación de texto y habla traducidos. Esta arquitectura también facilita el reconocimiento automático del habla, la traducción de texto a texto, la conversión de texto a habla, la traducción de habla a texto y la traducción de habla a habla, características que ya están inherentes en el modelo UnitY original. El modelo multitarea UnitY está estructurado en torno a tres componentes secuenciales principales. Los codificadores de texto y habla tienen la tarea de reconocer la entrada de habla en casi 100 idiomas. Posteriormente, el decodificador de texto transforma ese significado en varios idiomas para el contenido textual, seguido de un modelo de texto a unidades que lo decodifica en unidades acústicas discretas adaptadas a 36 idiomas de habla. A través del preentrenamiento del codificador auto-supervisado, los componentes de traducción de habla a texto, traducción de texto a texto y modelo de texto a unidades, se mejora la calidad del modelo y se garantiza su estabilidad de entrenamiento. Las unidades discretas decodificadas resultantes se transforman en habla utilizando un vocoder de unidad multilingüe HiFi-GAN.

Meta AI utiliza un codificador de habla auto-supervisado conocido como w2v-BERT 2.0, una versión mejorada de w2v-BERT que se distingue por una mayor estabilidad de entrenamiento y calidad de representación. Este codificador se entrena para discernir la estructura y el significado dentro de los patrones de habla, obteniendo información de vastos volúmenes de habla multilingüe que abarcan millones de horas. Funcionalmente, el codificador descompone la señal de audio en segmentos más pequeños, construyendo una representación interna del contenido hablado. Dado que el lenguaje hablado comprende diversos sonidos y caracteres, se emplea un adaptador de longitud para asignar estos elementos a palabras correspondientes, aunque de manera aproximada.

De manera similar, Meta AI utiliza un codificador de texto basado en el modelo NLLB. Este codificador de texto se entrena para comprender el contenido textual en casi 100 idiomas, generando representaciones que resultan valiosas en tareas de traducción.

El decodificador de texto de Meta AI es experto en procesar representaciones de habla codificadas o representaciones textuales. Esta capacidad se aprovecha para tareas dentro del mismo idioma, incluidos el reconocimiento automático del habla y los esfuerzos de traducción multilingüe. Por ejemplo, cuando un hablante pronuncia la palabra “bonjour” en francés, se genera de manera fluida el texto traducido correspondiente en suajili, “habari”. A través del entrenamiento multitarea, Meta AI aprovecha la destreza de un modelo de traducción de texto a texto robusto (NLLB) para guiar al modelo de traducción de habla a texto mediante la destilación de conocimiento a nivel de token.

En el contexto de la producción de habla, Meta AI aprovecha unidades acústicas para representar el habla objetivo. El componente de texto a unidades (T2U) dentro del modelo UnitY orquesta la creación de unidades de habla discretas basadas en la salida textual. Este componente se somete a un preentrenamiento en datos de ASR antes de la fase de ajuste fino de UnitY. Posteriormente, se emplea un vocoder de unidad multilingüe HiFi-GAN para convertir estas unidades discretas en formas de onda de audio.

Los modelos basados en datos como SeamlessM4T obtienen beneficios significativos de volúmenes sustanciales de datos de extremo a extremo de alta calidad, específicamente datos de habla a texto y de habla a habla. Sin embargo, depender únicamente de datos de habla transcritos y traducidos por humanos es insuficiente para abordar las complejidades de la traducción de habla para 100 idiomas. En respuesta, Meta AI se basa en su trabajo pionero en minería de texto a texto, empleando una medida de similitud en un espacio de incrustación unificado, junto con exploraciones iniciales en minería de habla, para generar recursos adicionales para el entrenamiento del modelo SeamlessM4T.

Los Resultados

Con un modelo único, el SeamlessM4T de Meta AI logra resultados de vanguardia en un amplio espectro de casi 100 idiomas. Este logro se ve potenciado por sus capacidades multitarea, que abarcan el reconocimiento automático del habla, habla a texto, habla a habla, texto a habla y traducción de texto a texto.

Destacablemente, el sistema extiende sus avances para abarcar idiomas con disponibilidad baja y media de recursos, mejorando significativamente su rendimiento. Esta ampliación se acompaña de la excelencia inquebrantable del sistema al ofrecer resultados sólidos para los idiomas de alto recurso.

En la búsqueda de una evaluación precisa del sistema, Meta AI introduce una métrica extendida, BLASER 2.0, que trasciende las evaluaciones basadas en texto. Esta métrica evolucionada permite evaluar unidades tanto de habla como de texto con una precisión similar a la de su predecesora. A través de pruebas rigurosas de robustez, el sistema demuestra una resistencia excepcional en tareas de reconocimiento de voz a texto. En el contexto de ruidos de fondo y variaciones en las características del hablante, el sistema logra mejoras sustanciales, con mejoras promedio del 37% y 48%, respectivamente, superando al modelo de vanguardia actual.

Crédito de la imagen: Meta AI

SeamlessM4T es sin duda uno de los modelos base más emocionantes jamás creado para la traducción de voz. Con suerte, lo veremos integrado en los esfuerzos multimodales de Meta AI.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Meta lanza Code Llama la última herramienta de IA para programar

En un increíble salto tecnológico, Meta ha lanzado su última creación, Code Llama, una herramienta impulsada por IA c...

Inteligencia Artificial

Evaluar modelos de lenguaje grandes en cuanto a calidad y responsabilidad

Los riesgos asociados con la IA generativa han sido ampliamente publicitados. La toxicidad, el sesgo, la fuga de info...

Inteligencia Artificial

Analógico y Digital Lo Mejor de Ambos Mundos en un Sistema Eficiente en Energía

Un nuevo dispositivo combina semiconductores bidimensionales ultrafinos y materiales ferroeléctricos, con el objetivo...

Inteligencia Artificial

Por qué Bankrate renunció a los artículos generados por IA

En enero, Bankrate y su sitio hermano, CNET, causaron sensación al publicar abiertamente cientos de artículos generad...