AI2 presenta Dolma un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje
AI2 presenta Dolma, un corpus de 3 billones de tokens que pionera la transparencia en la investigación de modelos de lenguaje.
La transparencia y apertura en la investigación de modelos de lenguaje han sido temas controvertidos desde hace mucho tiempo. La presencia de conjuntos de datos cerrados, metodologías secretas y supervisión limitada han actuado como barreras para el avance del campo. Reconociendo estos desafíos, el Instituto Allen de Inteligencia Artificial (AI2) ha presentado una solución innovadora: el conjunto de datos Dolma, un corpus expansivo que comprende asombrosos 3 billones de tokens. ¿El objetivo? Iniciar una nueva era de colaboración, transparencia y progreso compartido en la investigación de modelos de lenguaje.
En el campo en constante evolución del desarrollo de modelos de lenguaje, la ambigüedad que rodea a los conjuntos de datos y metodologías utilizadas por gigantes de la industria como OpenAI y Meta ha arrojado una sombra sobre el progreso. Esta opacidad no solo dificulta la capacidad de los investigadores externos para analizar críticamente, replicar y mejorar los modelos existentes, sino que también suprime el crecimiento general del campo. Dolma, la idea original de AI2, emerge como un faro de apertura en un panorama envuelto en secreto. Con un conjunto de datos que abarca contenido web, literatura académica, código y más, Dolma se esfuerza por empoderar a la comunidad de investigación otorgándoles las herramientas para construir, descomponer y optimizar sus modelos de lenguaje de forma independiente.
En el corazón de la creación de Dolma se encuentran un conjunto de principios fundamentales. Uno de los principales es la apertura, un principio que AI2 defiende para erradicar las barreras asociadas con el acceso restringido a corpus de preentrenamiento. Este enfoque fomenta el desarrollo de iteraciones mejoradas del conjunto de datos y promueve un riguroso examen de la relación entre los datos y los modelos en los que se basan. Además, el diseño de Dolma enfatiza la representatividad, reflejando conjuntos de datos de modelos de lenguaje establecidos para garantizar capacidades y comportamientos comparables. El tamaño también es una consideración relevante, con AI2 adentrándose en la interacción dinámica entre las dimensiones de los modelos y los conjuntos de datos. Mejorando aún más el enfoque se encuentran los principios de reproducibilidad y mitigación de riesgos, respaldados por metodologías transparentes y un compromiso de minimizar el daño a las personas.
- Los 5 mejores cursos de IA generativa para hacer en 2023
- YouTube Music lanza un incubador de IA en colaboración con Universal Music
- No tan grandes modelos de lenguaje los buenos datos derrocan al gigante
El origen de Dolma es un meticuloso proceso de procesamiento de datos. Compuesto por operaciones específicas de origen y agnósticas al origen, esta canalización transforma los datos en bruto en documentos de texto limpios y sin adornos. Los pasos intrincados comprenden tareas como la identificación de idioma, la curación de datos web de Common Crawl, filtros de calidad, eliminación de duplicados y estrategias de mitigación de riesgos. La inclusión de subconjuntos de código y fuentes diversas, incluyendo manuscritos científicos, Wikipedia y Project Gutenberg, eleva la exhaustividad de Dolma a nuevas alturas.
En general, la introducción de Dolma representa un gran avance hacia la transparencia y la sinergia colaborativa en la investigación de modelos de lenguaje. Enfrentando el problema de los conjuntos de datos ocultos de frente, el compromiso de AI2 con el acceso abierto y la documentación meticulosa establece un precedente transformador. La metodología propuesta, Dolma, se presenta como un valioso repositorio de contenido curado, listo para convertirse en un recurso fundamental para investigadores de todo el mundo. Desmantela el paradigma de secreto que rodea a los principales actores de la industria, reemplazándolo con un marco novedoso que defiende el avance colectivo y una comprensión más profunda del campo. A medida que la disciplina del procesamiento de lenguaje natural traza nuevos horizontes, se anticipa que los efectos de onda del impacto de Dolma se extenderán mucho más allá de este conjunto de datos, fomentando una cultura de conocimiento compartido, catalizando la innovación y fomentando el desarrollo responsable de la inteligencia artificial.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Tres gráficos para representar un porcentaje que quizás no conozcas
- Conoce EasyEdit Un marco de inteligencia artificial de edición de conocimientos fácil de usar para LLMs.
- Presentación de datos espaciales de forma interactiva con Story Maps #2
- Una Tienda Online Multilingüe de Prestashop Utilizando ChatGPT
- Promoviendo la participación del paciente Cómo las aplicaciones móviles revolucionan el desarrollo de software en el sector de la salud
- Crea videos virales de conversación con IA para ganar dinero en línea
- Conoce a SQLCoder Un nuevo modelo de código abierto y de última generación para convertir preguntas en lenguaje natural en consultas SQL