AI2 presenta Dolma un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje

AI2 presenta Dolma, un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje.

La transparencia y apertura en la investigación de modelos de lenguaje han sido temas controvertidos desde hace mucho tiempo. La presencia de conjuntos de datos cerrados, metodologías secretas y supervisión limitada han actuado como barreras para el avance del campo. Reconociendo estos desafíos, el Instituto Allen de Inteligencia Artificial (AI2) ha presentado una solución innovadora: el conjunto de datos Dolma, un corpus expansivo que comprende asombrosos 3 billones de tokens. ¿El objetivo? Iniciar una nueva era de colaboración, transparencia y progreso compartido en la investigación de modelos de lenguaje.

En el campo en constante evolución del desarrollo de modelos de lenguaje, la ambigüedad que rodea a los conjuntos de datos y metodologías utilizadas por gigantes de la industria como OpenAI y Meta ha arrojado una sombra sobre el progreso. Esta opacidad no solo dificulta la capacidad de los investigadores externos para analizar críticamente, replicar y mejorar los modelos existentes, sino que también suprime el crecimiento general del campo. Dolma, la idea original de AI2, emerge como un faro de apertura en un panorama envuelto en secreto. Con un conjunto de datos que abarca contenido web, literatura académica, código y más, Dolma se esfuerza por empoderar a la comunidad de investigación otorgándoles las herramientas para construir, descomponer y optimizar sus modelos de lenguaje de forma independiente.

En el corazón de la creación de Dolma se encuentran un conjunto de principios fundamentales. Uno de los principales es la apertura, un principio que AI2 defiende para erradicar las barreras asociadas con el acceso restringido a corpus de preentrenamiento. Este enfoque fomenta el desarrollo de iteraciones mejoradas del conjunto de datos y promueve un riguroso examen de la relación entre los datos y los modelos en los que se basan. Además, el diseño de Dolma enfatiza la representatividad, reflejando conjuntos de datos de modelos de lenguaje establecidos para garantizar capacidades y comportamientos comparables. El tamaño también es una consideración relevante, con AI2 adentrándose en la interacción dinámica entre las dimensiones de los modelos y los conjuntos de datos. Mejorando aún más el enfoque se encuentran los principios de reproducibilidad y mitigación de riesgos, respaldados por metodologías transparentes y un compromiso de minimizar el daño a las personas.

El origen de Dolma es un meticuloso proceso de procesamiento de datos. Compuesto por operaciones específicas de origen y agnósticas al origen, esta canalización transforma los datos en bruto en documentos de texto limpios y sin adornos. Los pasos intrincados comprenden tareas como la identificación de idioma, la curación de datos web de Common Crawl, filtros de calidad, eliminación de duplicados y estrategias de mitigación de riesgos. La inclusión de subconjuntos de código y fuentes diversas, incluyendo manuscritos científicos, Wikipedia y Project Gutenberg, eleva la exhaustividad de Dolma a nuevas alturas.

Ilustración que representa diferentes grados de transparencia del conjunto de datos

En general, la introducción de Dolma representa un gran avance hacia la transparencia y la sinergia colaborativa en la investigación de modelos de lenguaje. Enfrentando el problema de los conjuntos de datos ocultos de frente, el compromiso de AI2 con el acceso abierto y la documentación meticulosa establece un precedente transformador. La metodología propuesta, Dolma, se presenta como un valioso repositorio de contenido curado, listo para convertirse en un recurso fundamental para investigadores de todo el mundo. Desmantela el paradigma de secreto que rodea a los principales actores de la industria, reemplazándolo con un marco novedoso que defiende el avance colectivo y una comprensión más profunda del campo. A medida que la disciplina del procesamiento de lenguaje natural traza nuevos horizontes, se anticipa que los efectos de onda del impacto de Dolma se extenderán mucho más allá de este conjunto de datos, fomentando una cultura de conocimiento compartido, catalizando la innovación y fomentando el desarrollo responsable de la inteligencia artificial.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Línea Open-Sources ‘japanese-large-lm’ Un modelo de lenguaje japonés con 3.6 mil millones de parámetros

Desde noviembre de 2020, LINE se ha embarcado en un viaje transformador de investigación y desarrollo para crear y ap...

Ciencia de Datos

La Inteligencia Artificial ayuda a mostrar cómo fluyen los líquidos del cerebro.

Un equipo de científicos creó mediciones de velocimetría basadas en inteligencia artificial para cuantificar el flujo...

Inteligencia Artificial

Robot Sudoroso Puede Ayudar a los Humanos a Comprender el Impacto del Calor Abrasador

Un investigador de la Universidad Estatal de Arizona describió al robot Advanced Newton Dynamic Instrument como 'el p...

Inteligencia Artificial

La instancia de Amazon EC2 DL2q para inferencia de IA rentable y de alto rendimiento ahora está disponible en general

Este es un post invitado de A.K Roy de Qualcomm AI. Las instancias DL2q de Amazon Elastic Compute Cloud (Amazon EC2),...

Inteligencia Artificial

Google AI presenta Visually Rich Document Understanding (VRDU) un conjunto de datos para un mejor seguimiento del progreso de la tarea de comprensión de documentos

Cada vez se crean y almacenan más documentos por parte de las empresas en la era digital de hoy en día. Aunque estos ...

Inteligencia Artificial

AlphaFold, Herramientas similares podrían ayudar en la preparación para la próxima pandemia

Los investigadores cada vez más están utilizando la inteligencia artificial para ayudar a prepararse para futuras pan...