Mejorando modelos de lenguaje mediante la recuperación de billones de tokens.

'Optimizando modelos de lenguaje a través de la recuperación de un gran número de tokens.'

En los últimos años, se han logrado avances significativos en la mejora del rendimiento en la modelización de lenguaje autoregresiva al aumentar el número de parámetros en los modelos Transformer. Esto ha llevado a un aumento tremendo en el costo energético del entrenamiento y ha resultado en la generación de “Modelos de Lenguaje Grandes” (LLMs) densos con más de 100 mil millones de parámetros. Al mismo tiempo, se han recopilado grandes conjuntos de datos que contienen billones de palabras para facilitar el entrenamiento de estos LLMs.

Exploramos un camino alternativo para mejorar los modelos de lenguaje: agregamos recuperación de información a los transformers a través de una base de datos de fragmentos de texto que incluye páginas web, libros, noticias y código. Llamamos a nuestro método RETRO, por “Retrieval Enhanced TRansfOrmers”.

Figura 1: Una descripción general de Retrieval Enhanced TransfOrmers (RETRO).

En los modelos de lenguaje transformer tradicionales, los beneficios del tamaño del modelo y del tamaño de los datos están vinculados: siempre y cuando el conjunto de datos sea lo suficientemente grande, el rendimiento de la modelización de lenguaje está limitado por el tamaño del modelo. Sin embargo, con RETRO, el modelo no está limitado a los datos vistos durante el entrenamiento, sino que tiene acceso a todo el conjunto de datos de entrenamiento a través del mecanismo de recuperación. Esto resulta en mejoras significativas en el rendimiento en comparación con un Transformer estándar con el mismo número de parámetros. Mostramos que la modelización de lenguaje mejora continuamente a medida que aumentamos el tamaño de la base de datos de recuperación, al menos hasta 2 billones de tokens, equivalentes a 175 vidas completas de lectura continua.

Figura 2: Aumentar el tamaño del conjunto de datos de recuperación resulta en grandes mejoras en el rendimiento del modelo.

Para cada fragmento de texto (aproximadamente un párrafo de un documento), se realiza una búsqueda de vecinos más cercanos que devuelve secuencias similares encontradas en la base de datos de entrenamiento y su continuación. Estas secuencias ayudan a predecir la continuación del texto de entrada. La arquitectura RETRO combina la autoatención regular a nivel de documento con la atención cruzada a nivel de fragmento recuperado. Esto resulta en continuaciones más precisas y basadas en hechos. Además, RETRO aumenta la interpretabilidad de las predicciones del modelo y proporciona una vía para intervenciones directas a través de la base de datos de recuperación para mejorar la seguridad de la continuación del texto. En nuestros experimentos en Pile, un benchmark estándar de modelización de lenguaje, un modelo RETRO con 7.5 mil millones de parámetros supera al Jurassic-1 con 175 mil millones de parámetros en 10 de los 16 conjuntos de datos y supera al Gopher con 280 mil millones de parámetros en 9 de los 16 conjuntos de datos.

A continuación, mostramos dos ejemplos de nuestro modelo base con 7B de parámetros y de nuestro modelo RETRO con 7.5B de parámetros que destacan cómo las muestras de RETRO son más basadas en hechos y se mantienen más en el tema que la muestra base.

Figura 3: La muestra base solo genera 2 dígitos correctos. Con RETRO, los dígitos correctos se generan después de ser recuperados por la base de datos.

Figura 4: El modelo RETRO se mantiene más en el tema que la muestra base. Introducir texto de la descripción de la imagen aquí (opcional)

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Technical blog

Was this article helpful?

93 out of 132 found this helpful

Mejorando modelos de lenguaje mediante la recuperación de billones de tokens.

Was this article helpful?

Modelado del lenguaje a gran escala Gopher, consideraciones éticas y recuperación

Sobre la Expresividad de las Recompensas de Markov

Inteligencia Artificial

Evaluar modelos de lenguaje grandes en cuanto a calidad y responsabilidad

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Técnica de Machine Learning Mejor para Predecir Tasas de Cura del Cáncer

Investigación en Stanford presenta PointOdyssey un conjunto de datos sintético a gran escala para el seguimiento de puntos a largo plazo

xAI lanza PromptIDE Una nueva frontera en la ingeniería de prompts y transparencia de la inteligencia artificial

El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.