Conoce a PolyLM (Polyglot Large Language Model) un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en dos tamaños de modelo 1.7B y 13B.
Conoce a PolyLM, un modelo de lenguaje multilingüe de código abierto entrenado con 640B Tokens, disponible en tamaños de modelo 1.7B y 13B.
Con la reciente introducción de los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés), su versatilidad y capacidades han despertado el interés de todos en el sector de la Inteligencia Artificial. Estos modelos han sido entrenados con cantidades masivas de datos y poseen habilidades brillantes de imitación humana en la comprensión, el razonamiento y la generación de texto basado en instrucciones en lenguaje natural. Teniendo un buen rendimiento en tareas de cero y pocas muestras, estos modelos pueden manejar desafíos imprevistos basados en instrucciones dadas en lenguaje natural al ser ajustados en diferentes conjuntos de tareas.
Los LLMs actuales y su desarrollo se centran en el inglés y en lenguajes ricos en recursos. La mayoría de los LLMs existentes han sido diseñados y entrenados específicamente para el idioma inglés, lo que resulta en un sesgo predominante hacia el inglés en la investigación y desarrollo de estos modelos. Para abordar esta limitación, un equipo de investigadores de DAMO Academy y Alibaba Group ha propuesto un LLM multilingüe llamado POLYLM (Polyglot Large Language Model). A diferencia de los LLMs multilingües existentes que carecen de un modelo de 13B, el equipo ha lanzado POLYLM-13B y POLYLM-1.7B para facilitar su uso.
POLYLM ha sido construido utilizando un conjunto masivo de datos de 640B tokens de fuentes accesibles públicamente, incluyendo Wikipedia, mC4 y CC-100. El equipo también ha sugerido una técnica de aprendizaje curricular para abordar el problema de la falta de datos para los lenguajes de recursos limitados. Este método implica aumentar gradualmente la proporción de lenguajes de alta calidad y recursos limitados durante el entrenamiento, centrándose inicialmente más en el inglés. Se ha hecho hincapié en transferir conocimientos generales del inglés a otros idiomas.
- Principales herramientas/plataformas de Visión por Computadora en 2023
- 10 Startups de IA en la Región de APAC para seguir
- Herramientas/Plataformas principales de análisis predictivo (2023)
El equipo también ha desarrollado MULTIALPACA, un conjunto de datos de instrucciones multilingüe, para la fase de ajuste fino supervisado (SFT, por sus siglas en inglés). Los conjuntos de datos multilingües SFT existentes se obtienen mediante anotación manual, lo cual es lento y costoso, o mediante traducción automática, lo que puede provocar errores de traducción y carecer de matices culturales. Este enfoque de autoinstrucción multilingüe proporciona automáticamente datos de instrucción multilingües de alta calidad para superar estas restricciones y utiliza semillas en inglés, traducciones a muchos idiomas, producción de instrucciones y sistemas de filtrado.
Para la evaluación y el análisis de las capacidades multilingües de los LLMs, el equipo ha desarrollado un conjunto de pruebas derivado de tareas multilingües existentes, incluyendo preguntas y respuestas, comprensión del lenguaje, generación de texto y traducción automática entre idiomas. El conjunto de pruebas ha sido desarrollado con indicaciones meticulosas y cubre diez tareas en quince idiomas. El equipo ha demostrado a través de experimentos exhaustivos que su modelo preentrenado supera a los modelos de código abierto de tamaño comparable en idiomas que no son el inglés. La estrategia de entrenamiento curricular propuesta mejora el rendimiento multilingüe al tiempo que mantiene la competencia en inglés. El uso de datos de instrucción multilingües también mejora significativamente la capacidad de POLYLM para abordar tareas multilingües de cero y pocas muestras.
El equipo ha resumido las contribuciones de la siguiente manera.
- Se ha realizado un modelo eficiente a escala de 13B que funciona bien en los principales idiomas que no son el inglés, como el español, ruso, árabe, japonés, coreano, tailandés, indonesio y chino. Este modelo complementa a los modelos de código abierto existentes que carecen de competencia en estos idiomas o tienen versiones más pequeñas sin las mismas capacidades.
- Se ha propuesto un enfoque avanzado de aprendizaje curricular que facilita la transferencia de conocimientos generales, adquiridos principalmente en inglés, a diversos idiomas que no son el inglés y a tareas específicas de procesamiento de lenguaje natural, como la traducción automática.
- Se ha propuesto un conjunto de datos llamado MULTIALPACA que complementa los conjuntos de datos de instrucciones existentes, permitiendo que los LLMs sigan mejor instrucciones multilingües, especialmente de hablantes no nativos de inglés.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Probador virtual de gafas con JavaScript
- Construyendo una WebTV de IA
- Una Nueva Forma de Ver la Privacidad de los Datos
- Equipo de robots en gira de exploración lunar
- Herramientas de IA Generativa se están quedando rápidamente ‘sin texto’ para entrenarse
- Las Gemas Subestimadas Pt.1 8 Métodos de Pandas Que Te Convertirán en un Experto
- Trabajando con MS SQL Server en Julia