Investigadores de la Universidad de Zurich desarrollan SwissBERT un modelo de lenguaje multilingüe para los cuatro idiomas nacionales de Suiza

Investigadores de la Universidad de Zurich desarrollan SwissBERT, un modelo multilingüe para los idiomas nacionales de Suiza.

El famoso modelo BERT ha sido recientemente uno de los principales modelos de lenguaje para el procesamiento del lenguaje natural. El modelo de lenguaje es adecuado para una serie de tareas de NLP, aquellas que transforman la secuencia de entrada en una secuencia de salida. BERT (Representaciones Codificadoras Bidireccionales de Transformadores) utiliza un mecanismo de atención Transformer. Un mecanismo de atención aprende relaciones contextuales entre palabras o subpalabras en un corpus textual. El modelo de lenguaje BERT es uno de los ejemplos más destacados de los avances en NLP y utiliza técnicas de aprendizaje auto-supervisado.

Antes de desarrollar el modelo BERT, un modelo de lenguaje analizaba la secuencia de texto en el momento del entrenamiento de izquierda a derecha o combinando izquierda a derecha y derecha a izquierda. Este enfoque unidireccional funcionaba bien para generar frases al predecir la siguiente palabra, adjuntarla a la secuencia, seguida de predecir la siguiente palabra hasta obtener una oración completa y significativa. Con BERT se introdujo el entrenamiento bidireccional, lo que proporcionó un sentido más profundo del contexto y flujo del lenguaje en comparación con los modelos de lenguaje anteriores.

El modelo BERT original se lanzó para el idioma inglés. Después de eso, se desarrollaron otros modelos de lenguaje como CamemBERT para francés y GilBERTo para italiano. Recientemente, un equipo de investigadores de la Universidad de Zúrich ha desarrollado un modelo de lenguaje multilingüe para Suiza. Llamado SwissBERT, este modelo ha sido entrenado con más de 21 millones de artículos de noticias suizas en suizo estándar alemán, francés, italiano y romanche grischún, con un total de 12 mil millones de tokens.

SwissBERT se ha introducido para superar los desafíos a los que se enfrentan los investigadores en Suiza debido a la incapacidad de realizar tareas multilingües. Suiza tiene principalmente cuatro idiomas oficiales: alemán, francés, italiano y romanche, y es difícil combinar modelos de lenguaje individuales para cada idioma en particular para realizar tareas multilingües. Además, no existe un modelo de lenguaje neural separado para el cuarto idioma nacional, el romanche. Dado que implementar tareas multilingües es algo complicado en el campo de NLP, no había un modelo unificado para el idioma nacional suizo antes de SwissBERT. SwissBERT supera este desafío simplemente combinando artículos en estos idiomas y creando representaciones multilingües al aprovechar implícitamente entidades y eventos comunes en las noticias.

El modelo SwissBERT ha sido remodelado a partir de un transformador modular (X-MOD) de múltiples idiomas que fue pre-entrenado en conjunto en 81 idiomas. Los investigadores han adaptado un transformador X-MOD pre-entrenado a su corpus mediante el entrenamiento de adaptadores de lenguaje personalizados. Han creado un vocabulario de subpalabras específico de Suiza para SwissBERT, con el modelo resultante que consta de nada menos que 153 millones de parámetros.

El equipo ha evaluado el rendimiento de SwissBERT en tareas, que incluyen el reconocimiento de entidades nombradas en noticias contemporáneas (SwissNER) y la detección de posturas en comentarios generados por usuarios sobre política suiza. SwissBERT supera los resultados de referencia comunes y mejora en comparación con XLM-R en la detección de postura. Al evaluar las capacidades del modelo en romanche, se descubrió que SwissBERT supera ampliamente a los modelos que no han sido entrenados en el idioma en términos de transferencia cruzada de múltiples idiomas sin entrenamiento y alineación alemán-romanche de palabras y oraciones. Sin embargo, el modelo no funcionó muy bien en el reconocimiento de entidades nombradas en noticias históricas procesadas por OCR.

Los investigadores han lanzado SwissBERT con ejemplos para ajustar tareas posteriores. Este modelo parece prometedor para futuras investigaciones e incluso para fines no comerciales. Con una mayor adaptación, las tareas posteriores pueden beneficiarse del multilingüismo del modelo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Kinara presenta el procesador Ara-2 revolucionando el procesamiento de IA en dispositivos para un rendimiento mejorado

Kinara, una entidad pionera en inteligencia artificial energéticamente eficiente en el dispositivo, ha presentado su ...

Investigación

Una forma más efectiva de entrenar máquinas para situaciones inciertas del mundo real.

Los investigadores desarrollaron un algoritmo que decide cuándo una máquina estudiante debe seguir a su profesor y cu...

Inteligencia Artificial

La cirugía cerebral impulsada por IA se convierte en una realidad en Hong Kong

El Centro de Inteligencia Artificial y Robótica, bajo la Academia China de Ciencias, completó pruebas exitosas de un ...

Inteligencia Artificial

Conoce a Meditron una suite de modelos de lenguaje médicos de código abierto basados en LLaMA-2 (Large Language Models para Medicina)

Una de las aplicaciones más emocionantes de los Modelos de Lenguaje Amplio (LLMs, por sus siglas en inglés) es en med...

Inteligencia Artificial

Un caso que rima con Microsoft

La lección predominante del caso de Microsoft, según los abogados antimonopolio, es que el escrutinio de Washington p...