Investigadores de la Universidad de Oregon y Adobe presentan CulturaX un conjunto de datos multilingüe con 6,3T de tokens en 167 idiomas diseñado para el desarrollo de modelos de lenguaje grandes (LLM).

Investigadores de la Universidad de Oregon y Adobe presentan CulturaX, un conjunto de datos multilingüe con 6,3T de tokens en 167 idiomas para el desarrollo de modelos de lenguaje grandes (LLM).

Al mejorar drásticamente el rendimiento de vanguardia en una amplia gama de tareas y revelar nuevas habilidades emergentes, los modelos de lenguaje grandes (LLM) han tenido un impacto profundo en la investigación y las aplicaciones de NLP. Para codificar textos de entrada en vectores de representación, se han investigado modelos solo de codificación; para crear textos, se han estudiado modelos solo de decodificación; y para lograr la creación de secuencia a secuencia, se han estudiado modelos de codificación y decodificación. El crecimiento exponencial en el tamaño de los modelos y los conjuntos de datos de entrenamiento, ambos requeridos por las leyes de escalamiento para obtener un rendimiento máximo, ha sido la fuerza principal detrás de las capacidades notables de los LLM. Por ejemplo, aunque el modelo BERT solo contenía unos pocos cientos de millones de parámetros, los modelos basados en GPT más contemporáneos ahora incluyen cientos de miles de millones de parámetros.

Los tamaños masivos de los modelos y los enormes conjuntos de datos de entrenamiento son los elementos principales para avanzar en los modelos de lenguaje grandes (LLM) con increíbles capacidades de aprendizaje. Con el desarrollo de NLP, los LLM han estado cada vez más disponibles para el público en general para fomentar un mayor estudio y aplicaciones prácticas. Sin embargo, los conjuntos de datos de entrenamiento para estos LLM generalmente solo se proporcionan parcialmente, especialmente para los modelos más recientes de vanguardia. Se requiere una limpieza y deduplicación exhaustivas de los datos para crear datos de entrenamiento de alta calidad para los LLM. De esta manera, la necesidad de una mayor apertura en torno a los datos de entrenamiento ha obstaculizado los esfuerzos para replicar hallazgos y avanzar en el campo de la investigación sobre alucinación y sesgos en los LLM. Estas dificultades se ven agravadas en escenarios de aprendizaje multilingüe por la recolección y limpieza típicamente insuficientes de colecciones de textos multilingües. Como resultado, no existe un conjunto de datos de código abierto bueno que se pueda utilizar para entrenar LLM en varios idiomas. CulturaX, un conjunto de datos multilingüe masivo que incluye 6,3 billones de tokens en 167 idiomas, fue desarrollado por una colaboración de académicos de la Universidad de Oregón e Adobe Research para abordar este problema. Para garantizar la máxima calidad para el entrenamiento del modelo, el conjunto de datos pasa por un riguroso flujo de trabajo que incluye numerosos pasos de limpieza y deduplicación. Estos procesos incluyen identificar los idiomas en el conjunto de datos, filtrar el conjunto de datos utilizando URL, limpiar el conjunto de datos utilizando métricas, refinar los documentos y deduplicar los datos.

CulturaX se somete a una limpieza exhaustiva a nivel de documento y deduplicación para garantizar el entrenamiento de alta calidad de LLM en varios idiomas. El procedimiento de limpieza de datos utiliza un flujo de trabajo completo para eliminar información inexacta. Esto implica la eliminación de distracciones como la identificación inexacta de idiomas, datos perjudiciales y material no lingüístico.

Características clave

  • CulturaX es el conjunto de datos multilingüe de código abierto más grande que se ha limpiado y deduplicado minuciosamente para su uso en aplicaciones de LLM y NLP.
  • CulturaX proporciona un conjunto de datos multilingüe, de código abierto y masivo con datos de alta calidad y aplicabilidad inmediata para entrenar LLM, resolviendo muchos problemas con los conjuntos de datos actuales.
  • Aunque existen conjuntos de datos de código abierto multilingües con datos de texto en varios idiomas, como mC4, su calidad y escala no cumplen con los requisitos para entrenar eficientemente LLM, especialmente modelos generativos como GPT. Por ejemplo, como se mencionó en la introducción, ni mC4 ni OSCAR proporcionan deduplicación borrosa a nivel de documento. El uso de cld3 produce un reconocimiento de idiomas inferior para mC4, lo cual es otra desventaja. Si bien CC100 contiene datos posteriores a 2018, BigScience ROOTS solo proporciona una muestra de los datos para 46 idiomas.

La versión pública completa de CulturaX de HuggingFace ayudará a estudiar aún más los LLM multilingües y sus aplicaciones. Consulta aquí https://huggingface.co/datasets/uonlp/CulturaX

Deberías echar un vistazo a CulturaX, un nuevo conjunto de datos multilingüe con datos de texto para 167 idiomas. Un flujo de trabajo exhaustivo limpia y elimina duplicados del conjunto de datos, resultando en 6,3 billones de tokens. Como un conjunto de datos enorme y de alta calidad, CulturaX se puede utilizar para entrenar LLM efectivos en varios idiomas fácilmente. Esta información está disponible de forma gratuita para el público, y los investigadores esperan que pueda inspirar estudios adicionales y usos prácticos de la adquisición de lenguaje.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Revolucionando la segmentación panóptica con FC-CLIP un marco unificado de IA (Inteligencia Artificial) en una sola etapa

La segmentación de imágenes es una tarea fundamental en la visión por computadora, donde una imagen se divide en part...

Inteligencia Artificial

Inflection-1 La Próxima Frontera de la IA Personal

Presentamos Inflection-1 el LLM interno de Inflection.AI que utiliza Pi.ai y está adaptado a tus necesidades únicas.

Aprendizaje Automático

¡Hola GPU, ¿qué hay de mi matriz?

Multiplicación de matrices; el Santo Grial de las redes neuronales profundas y los gigantes modernos de la comprensió...

Inteligencia Artificial

Descifrando la regulación génica con Deep Learning Un nuevo enfoque de IA para entender el empalme alternativo

El empalme alternativo es un proceso fundamental en la regulación génica, que permite que un solo gen produzca múltip...