Investigadores de la Universidad de Zurich desarrollan SwissBERT un modelo de lenguaje multilingüe para los cuatro idiomas nacionales de Suiza
Investigadores de la Universidad de Zurich desarrollan SwissBERT, un modelo multilingüe para los idiomas nacionales de Suiza.
El famoso modelo BERT ha sido recientemente uno de los principales modelos de lenguaje para el procesamiento del lenguaje natural. El modelo de lenguaje es adecuado para una serie de tareas de NLP, aquellas que transforman la secuencia de entrada en una secuencia de salida. BERT (Representaciones Codificadoras Bidireccionales de Transformadores) utiliza un mecanismo de atención Transformer. Un mecanismo de atención aprende relaciones contextuales entre palabras o subpalabras en un corpus textual. El modelo de lenguaje BERT es uno de los ejemplos más destacados de los avances en NLP y utiliza técnicas de aprendizaje auto-supervisado.
Antes de desarrollar el modelo BERT, un modelo de lenguaje analizaba la secuencia de texto en el momento del entrenamiento de izquierda a derecha o combinando izquierda a derecha y derecha a izquierda. Este enfoque unidireccional funcionaba bien para generar frases al predecir la siguiente palabra, adjuntarla a la secuencia, seguida de predecir la siguiente palabra hasta obtener una oración completa y significativa. Con BERT se introdujo el entrenamiento bidireccional, lo que proporcionó un sentido más profundo del contexto y flujo del lenguaje en comparación con los modelos de lenguaje anteriores.
El modelo BERT original se lanzó para el idioma inglés. Después de eso, se desarrollaron otros modelos de lenguaje como CamemBERT para francés y GilBERTo para italiano. Recientemente, un equipo de investigadores de la Universidad de Zúrich ha desarrollado un modelo de lenguaje multilingüe para Suiza. Llamado SwissBERT, este modelo ha sido entrenado con más de 21 millones de artículos de noticias suizas en suizo estándar alemán, francés, italiano y romanche grischún, con un total de 12 mil millones de tokens.
- Herramientas/Plataformas principales para la Optimización de Hiperparámetros 2023
- 5 Herramientas de IA para Blogs (Que Acelerarán Tu Éxito)
- Usando la Regresión Simbólica para Agregar Incertidumbre al Famoso Sistema de Puntuación de Elo
SwissBERT se ha introducido para superar los desafíos a los que se enfrentan los investigadores en Suiza debido a la incapacidad de realizar tareas multilingües. Suiza tiene principalmente cuatro idiomas oficiales: alemán, francés, italiano y romanche, y es difícil combinar modelos de lenguaje individuales para cada idioma en particular para realizar tareas multilingües. Además, no existe un modelo de lenguaje neural separado para el cuarto idioma nacional, el romanche. Dado que implementar tareas multilingües es algo complicado en el campo de NLP, no había un modelo unificado para el idioma nacional suizo antes de SwissBERT. SwissBERT supera este desafío simplemente combinando artículos en estos idiomas y creando representaciones multilingües al aprovechar implícitamente entidades y eventos comunes en las noticias.
El modelo SwissBERT ha sido remodelado a partir de un transformador modular (X-MOD) de múltiples idiomas que fue pre-entrenado en conjunto en 81 idiomas. Los investigadores han adaptado un transformador X-MOD pre-entrenado a su corpus mediante el entrenamiento de adaptadores de lenguaje personalizados. Han creado un vocabulario de subpalabras específico de Suiza para SwissBERT, con el modelo resultante que consta de nada menos que 153 millones de parámetros.
El equipo ha evaluado el rendimiento de SwissBERT en tareas, que incluyen el reconocimiento de entidades nombradas en noticias contemporáneas (SwissNER) y la detección de posturas en comentarios generados por usuarios sobre política suiza. SwissBERT supera los resultados de referencia comunes y mejora en comparación con XLM-R en la detección de postura. Al evaluar las capacidades del modelo en romanche, se descubrió que SwissBERT supera ampliamente a los modelos que no han sido entrenados en el idioma en términos de transferencia cruzada de múltiples idiomas sin entrenamiento y alineación alemán-romanche de palabras y oraciones. Sin embargo, el modelo no funcionó muy bien en el reconocimiento de entidades nombradas en noticias históricas procesadas por OCR.
Los investigadores han lanzado SwissBERT con ejemplos para ajustar tareas posteriores. Este modelo parece prometedor para futuras investigaciones e incluso para fines no comerciales. Con una mayor adaptación, las tareas posteriores pueden beneficiarse del multilingüismo del modelo.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- *args, **kwargs y todo lo demás en medio
- Barry Diller vs. IA Generativa Batalla Legal de Derechos de Autor
- Una forma más rápida de enseñar a un robot
- NotebookLM Cuaderno de IA Experimental de Google para un Aprendizaje e Insight Mejorados
- Conoce a PolyLM (Polyglot Large Language Model) un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en dos tamaños de modelo 1.7B y 13B.
- Principales herramientas/plataformas de Visión por Computadora en 2023
- 10 Startups de IA en la Región de APAC para seguir