Conoce GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.

Descubre GlotLID Un modelo de Identificación de Lenguaje (LID) de código abierto que admite 1665 idiomas.

En tiempos recientes, cuando la comunicación a través de las fronteras nacionales está en constante crecimiento, la inclusión lingüística es fundamental. La tecnología de procesamiento del lenguaje natural (NLP) debe ser accesible para una amplia gama de variedades lingüísticas en lugar de solo unos pocos idiomas seleccionados de alto recurso y VoAGI. El acceso a corpus, es decir, colecciones de datos lingüísticos para idiomas de bajo recurso, es crucial para lograr esto. Promover la variedad lingüística y garantizar que la tecnología de NLP pueda ayudar a las personas en todo el mundo depende de esta inclusión.

Ha habido avances tremendos en el campo de la Identificación de Idioma (LID), especialmente para los aproximadamente 300 idiomas de alto recurso y VoAGI. Varios estudios han sugerido sistemas de LID que funcionan bien para varios idiomas. Pero hay varios problemas con esto, que son los siguientes.

  1. No existe actualmente un sistema de LID que admita una amplia variedad de idiomas de bajo recurso, que son esenciales para la diversidad y la inclusión lingüística.
  1. Los modelos de LID actuales para idiomas de bajo recurso no brindan una evaluación y confiabilidad exhaustivas. Es crucial asegurar que el sistema pueda reconocer con precisión los idiomas en una variedad de circunstancias.
  1. Una de las principales preocupaciones con los sistemas de LID es su usabilidad, es decir, la facilidad de uso y eficacia.

Para superar estos desafíos, un equipo de investigadores ha presentado GlotLID-M, un modelo único de Identificación de Idioma. Con una capacidad de identificación notable de 1665 idiomas, GlotLID-M ofrece una mejora significativa en la cobertura en comparación con investigaciones anteriores. Es un gran paso hacia la posibilidad de que una mayor variedad de idiomas y culturas utilicen la tecnología de NLP. Se han abordado varios problemas en el contexto de LID de bajo recurso, que se han superado con este nuevo enfoque.

  1. Metadatos de corpus inexactos: la falta de datos lingüísticos precisos o adecuados es un problema común para los idiomas de bajo recurso, que ha sido acomodado por GlotLID-M al mantener una identificación precisa.
  1. Fuga de idiomas de alto recurso: GlotLID-M ha abordado el problema de los idiomas de bajo recurso que ocasionalmente se asocian erróneamente con rasgos lingüísticos de idiomas de alto recurso.
  1. Dificultad para distinguir idiomas estrechamente relacionados: en los idiomas de bajo recurso se pueden encontrar dialectos y variantes estrechamente relacionadas. GlotLID-M ha proporcionado una identificación más precisa al diferenciar entre ellos.
  1. Manejo de macrolenguaje vs. variedades: los dialectos y otras variaciones se incluyen con frecuencia en los macrolenguajes. Dentro de un macrolenguaje, GlotLID-M ha demostrado ser capaz de identificar estos cambios de manera efectiva.
  1. Manejo de datos ruidosos: GlotLID-M funciona bien al manejar datos ruidosos, ya que trabajar con datos lingüísticos de bajo recurso puede ser difícil y ruidoso en ocasiones.

El equipo ha compartido que, al evaluarlo, GlotLID-M ha demostrado un mejor rendimiento que cuatro modelos de LID de referencia, que son CLD3, FT176, OpenLID y NLLB, cuando se equilibra la puntuación F1 basada en la precisión y la tasa de falsos positivos. Esto demuestra que puede reconocer de manera constante los idiomas con precisión, incluso en situaciones difíciles. GlotLID-M se ha creado con usabilidad y eficiencia y se puede incorporar fácilmente en flujos de trabajo para crear conjuntos de datos.

El equipo ha compartido sus principales contribuciones de la siguiente manera.

  1. Se ha creado GlotLID-C, un extenso conjunto de datos que abarca 1665 idiomas y se destaca por su inclusividad, con un enfoque en idiomas de bajo recurso en diversos dominios.
  1. Se ha entrenado GlotLID-M, un modelo de Identificación de Idioma de código abierto, utilizando el conjunto de datos GlotLID-C. Este modelo es capaz de identificar idiomas entre los 1665 idiomas del conjunto de datos, lo que lo convierte en una herramienta poderosa para el reconocimiento de idiomas en un amplio espectro lingüístico.
  1. GlotLID-M ha superado múltiples modelos de referencia, demostrando su eficacia. En comparación con los idiomas de bajo recurso, logra una mejora notable de más del 12% en la puntuación F1 absoluta en el corpus de la Declaración Universal de Derechos Humanos (UDHR).
  1. Cuando se trata de equilibrar las puntuaciones F1 y las tasas de falsos positivos (FPR), GlotLID-M también tiene un rendimiento excepcional. El conjunto de datos FLORES-200, que en su mayoría comprende idiomas de alto recurso y VoAGI, tiene un mejor rendimiento que los modelos de referencia.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Los modelos de lenguaje grandes tienen sesgos. ¿Puede la lógica ayudar a salvarlos?

Investigadores del MIT entrenaron modelos de lenguaje conscientes de la lógica para reducir estereotipos dañinos como...

Inteligencia Artificial

Personalizando compañeros de codificación para organizaciones

Los modelos de IA generativa para compañeros de codificación se entrenan principalmente con código fuente disponible ...

Inteligencia Artificial

Investigadores de la Universidad de California en San Diego presentan EUGENe un software de genómica fácil de usar y basado en el aprendizaje profundo

El aprendizaje profundo se utiliza en todas las esferas de la vida. Tiene utilidad en cada campo. Tiene un gran impac...

Inteligencia Artificial

Fiber Óptica Pantalones Inteligentes Ofrecen una Forma de Bajo Costo para Monitorear Movimientos

Los investigadores han desarrollado pantalones inteligentes de fibra óptica de polímeros que pueden rastrear los movi...