Conoce a PolyLM (Polyglot Large Language Model) un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en dos tamaños de modelo 1.7B y 13B.

Conoce a PolyLM, un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en tamaños de modelo 1.7B y 13B.

Con la reciente introducción de los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés), su versatilidad y capacidades han despertado el interés de todos en el sector de la Inteligencia Artificial. Estos modelos han sido entrenados con cantidades masivas de datos y poseen habilidades brillantes de imitación humana en la comprensión, el razonamiento y la generación de texto basado en instrucciones en lenguaje natural. Teniendo un buen rendimiento en tareas de cero y pocas muestras, estos modelos pueden manejar desafíos imprevistos basados en instrucciones dadas en lenguaje natural al ser ajustados en diferentes conjuntos de tareas.

Los LLMs actuales y su desarrollo se centran en el inglés y en lenguajes ricos en recursos. La mayoría de los LLMs existentes han sido diseñados y entrenados específicamente para el idioma inglés, lo que resulta en un sesgo predominante hacia el inglés en la investigación y desarrollo de estos modelos. Para abordar esta limitación, un equipo de investigadores de DAMO Academy y Alibaba Group ha propuesto un LLM multilingüe llamado POLYLM (Polyglot Large Language Model). A diferencia de los LLMs multilingües existentes que carecen de un modelo de 13B, el equipo ha lanzado POLYLM-13B y POLYLM-1.7B para facilitar su uso.

POLYLM ha sido construido utilizando un conjunto masivo de datos de 640B tokens de fuentes accesibles públicamente, incluyendo Wikipedia, mC4 y CC-100. El equipo también ha sugerido una técnica de aprendizaje curricular para abordar el problema de la falta de datos para los lenguajes de recursos limitados. Este método implica aumentar gradualmente la proporción de lenguajes de alta calidad y recursos limitados durante el entrenamiento, centrándose inicialmente más en el inglés. Se ha hecho hincapié en transferir conocimientos generales del inglés a otros idiomas.

El equipo también ha desarrollado MULTIALPACA, un conjunto de datos de instrucciones multilingüe, para la fase de ajuste fino supervisado (SFT, por sus siglas en inglés). Los conjuntos de datos multilingües SFT existentes se obtienen mediante anotación manual, lo cual es lento y costoso, o mediante traducción automática, lo que puede provocar errores de traducción y carecer de matices culturales. Este enfoque de autoinstrucción multilingüe proporciona automáticamente datos de instrucción multilingües de alta calidad para superar estas restricciones y utiliza semillas en inglés, traducciones a muchos idiomas, producción de instrucciones y sistemas de filtrado.

Para la evaluación y el análisis de las capacidades multilingües de los LLMs, el equipo ha desarrollado un conjunto de pruebas derivado de tareas multilingües existentes, incluyendo preguntas y respuestas, comprensión del lenguaje, generación de texto y traducción automática entre idiomas. El conjunto de pruebas ha sido desarrollado con indicaciones meticulosas y cubre diez tareas en quince idiomas. El equipo ha demostrado a través de experimentos exhaustivos que su modelo preentrenado supera a los modelos de código abierto de tamaño comparable en idiomas que no son el inglés. La estrategia de entrenamiento curricular propuesta mejora el rendimiento multilingüe al tiempo que mantiene la competencia en inglés. El uso de datos de instrucción multilingües también mejora significativamente la capacidad de POLYLM para abordar tareas multilingües de cero y pocas muestras.

El equipo ha resumido las contribuciones de la siguiente manera.

Se ha realizado un modelo eficiente a escala de 13B que funciona bien en los principales idiomas que no son el inglés, como el español, ruso, árabe, japonés, coreano, tailandés, indonesio y chino. Este modelo complementa a los modelos de código abierto existentes que carecen de competencia en estos idiomas o tienen versiones más pequeñas sin las mismas capacidades.

Se ha propuesto un enfoque avanzado de aprendizaje curricular que facilita la transferencia de conocimientos generales, adquiridos principalmente en inglés, a diversos idiomas que no son el inglés y a tareas específicas de procesamiento de lenguaje natural, como la traducción automática.

Se ha propuesto un conjunto de datos llamado MULTIALPACA que complementa los conjuntos de datos de instrucciones existentes, permitiendo que los LLMs sigan mejor instrucciones multilingües, especialmente de hablantes no nativos de inglés.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsartificial intelligenceEditors PickLanguage ModelLarge Language ModelMachine LearningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Conoce a PolyLM (Polyglot Large Language Model) un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en dos tamaños de modelo 1.7B y 13B.

Was this article helpful?

Principales herramientas/plataformas de Visión por Computadora en 2023

NotebookLM Cuaderno de IA Experimental de Google para un Aprendizaje e Insight Mejorados

Inteligencia Artificial

Cómo el Aprendizaje Automático se convertirá en un cambio de juego para la industria de datos de ubicación

Los satélites más antiguos de observación de la Tierra de NOAA obtienen 'vida prolongada

El futuro de la guerra totalmente autónoma impulsado por IA está aquí

¿Cómo supera Bing Chat a ChatGPT en proporcionar conocimiento en tiempo real actualizado? Conoce la Generación con Recuperación Mejorada (RAG)

Asistentes de correo electrónico AI más valorados (noviembre de 2023)

Más allá de los límites humanos El surgimiento de la SuperInteligencia