Mejorando modelos de lenguaje mediante la recuperación de billones de tokens.

'Optimizando modelos de lenguaje a través de la recuperación de un gran número de tokens.'

En los últimos años, se han logrado avances significativos en la mejora del rendimiento en la modelización de lenguaje autoregresiva al aumentar el número de parámetros en los modelos Transformer. Esto ha llevado a un aumento tremendo en el costo energético del entrenamiento y ha resultado en la generación de “Modelos de Lenguaje Grandes” (LLMs) densos con más de 100 mil millones de parámetros. Al mismo tiempo, se han recopilado grandes conjuntos de datos que contienen billones de palabras para facilitar el entrenamiento de estos LLMs.

Exploramos un camino alternativo para mejorar los modelos de lenguaje: agregamos recuperación de información a los transformers a través de una base de datos de fragmentos de texto que incluye páginas web, libros, noticias y código. Llamamos a nuestro método RETRO, por “Retrieval Enhanced TRansfOrmers”.

Figura 1: Una descripción general de Retrieval Enhanced TransfOrmers (RETRO).

En los modelos de lenguaje transformer tradicionales, los beneficios del tamaño del modelo y del tamaño de los datos están vinculados: siempre y cuando el conjunto de datos sea lo suficientemente grande, el rendimiento de la modelización de lenguaje está limitado por el tamaño del modelo. Sin embargo, con RETRO, el modelo no está limitado a los datos vistos durante el entrenamiento, sino que tiene acceso a todo el conjunto de datos de entrenamiento a través del mecanismo de recuperación. Esto resulta en mejoras significativas en el rendimiento en comparación con un Transformer estándar con el mismo número de parámetros. Mostramos que la modelización de lenguaje mejora continuamente a medida que aumentamos el tamaño de la base de datos de recuperación, al menos hasta 2 billones de tokens, equivalentes a 175 vidas completas de lectura continua.

Figura 2: Aumentar el tamaño del conjunto de datos de recuperación resulta en grandes mejoras en el rendimiento del modelo.

Para cada fragmento de texto (aproximadamente un párrafo de un documento), se realiza una búsqueda de vecinos más cercanos que devuelve secuencias similares encontradas en la base de datos de entrenamiento y su continuación. Estas secuencias ayudan a predecir la continuación del texto de entrada. La arquitectura RETRO combina la autoatención regular a nivel de documento con la atención cruzada a nivel de fragmento recuperado. Esto resulta en continuaciones más precisas y basadas en hechos. Además, RETRO aumenta la interpretabilidad de las predicciones del modelo y proporciona una vía para intervenciones directas a través de la base de datos de recuperación para mejorar la seguridad de la continuación del texto. En nuestros experimentos en Pile, un benchmark estándar de modelización de lenguaje, un modelo RETRO con 7.5 mil millones de parámetros supera al Jurassic-1 con 175 mil millones de parámetros en 10 de los 16 conjuntos de datos y supera al Gopher con 280 mil millones de parámetros en 9 de los 16 conjuntos de datos.

A continuación, mostramos dos ejemplos de nuestro modelo base con 7B de parámetros y de nuestro modelo RETRO con 7.5B de parámetros que destacan cómo las muestras de RETRO son más basadas en hechos y se mantienen más en el tema que la muestra base.

Figura 3: La muestra base solo genera 2 dígitos correctos. Con RETRO, los dígitos correctos se generan después de ser recuperados por la base de datos.
Figura 4: El modelo RETRO se mantiene más en el tema que la muestra base. Introducir texto de la descripción de la imagen aquí (opcional)

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Evaluar modelos de lenguaje grandes en cuanto a calidad y responsabilidad

Los riesgos asociados con la IA generativa han sido ampliamente publicitados. La toxicidad, el sesgo, la fuga de info...

Inteligencia Artificial

Los robots submarinos podrían abrir paso a un futuro de alta tecnología para la minería en aguas profundas

Renee Grogan, desarrolladora de soluciones mineras en Impossible Metals, visualiza a los robots submarinos como clave...

Inteligencia Artificial

Técnica de Machine Learning Mejor para Predecir Tasas de Cura del Cáncer

Un modelo de aprendizaje automático desarrollado por investigadores de la Universidad de Texas en Arlington (UTA) pue...

Inteligencia Artificial

Investigación en Stanford presenta PointOdyssey un conjunto de datos sintético a gran escala para el seguimiento de puntos a largo plazo

Los conjuntos de datos anotados a gran escala han servido como una autopista para crear modelos precisos en varias ta...

Inteligencia Artificial

xAI lanza PromptIDE Una nueva frontera en la ingeniería de prompts y transparencia de la inteligencia artificial

En un movimiento revolucionario para el desarrollo de la inteligencia artificial, xAI ha presentado el PromptIDE, un ...

Aprendizaje Automático

El Programa MIT-Takeda entra en su cuarto año con una cosecha de 10 nuevos proyectos.

El programa aprovecha la experiencia en investigación del MIT y el conocimiento industrial de Takeda para investigar ...