Ampliando la longitud del contexto en los modelos de lenguaje grandes

Expandiendo la longitud del contexto en los modelos de lenguaje extensos

Cómo convertir tu Llama en una Jirafa

Imagen del autor. (Llamas generadas por IA)

La longitud del contexto se refiere al número máximo de tokens que el modelo puede recordar al generar texto. Una ventana de contexto más larga permite que el modelo comprenda mejor las dependencias a largo plazo en el texto. Los modelos con contextos más largos pueden establecer conexiones entre ideas que están lejos en el texto, generando resultados más coherentes a nivel global.

Durante el entrenamiento, el modelo procesa los datos de texto en fragmentos o ventanas de longitud fija. Los modelos deben ser entrenados con textos extensos para aprovechar realmente los contextos largos. Las secuencias de entrenamiento deben contener documentos, libros, artículos, etc., con miles de tokens. La longitud de los datos de entrenamiento establece un límite en la longitud del contexto utilizable.

Entonces, ¿por qué no entrenamos modelos en secuencias más largas?

No tan rápido.

Aumentar la longitud del contexto aumenta el número de combinaciones posibles de tokens que el modelo debe aprender a predecir con precisión. Esto permite un modelado a largo plazo más robusto, pero también requiere más memoria y capacidad de procesamiento, lo que conlleva costos de entrenamiento más altos.

Sin ninguna optimización, el cálculo escala de manera cuadrática con la longitud del contexto, lo que significa que un modelo de 4096 tokens requerirá 64 veces más cálculos que un modelo de 512 tokens.

Puedes utilizar métodos de atención dispersa o aproximada para reducir el costo de cálculo, pero también pueden afectar la precisión del modelo.

Entrenar y utilizar modelos de lenguaje con contextos extensos presenta tres desafíos principales:

Ajustar contextos largos en el modelo.
Acelerar la inferencia y el entrenamiento para que no duren para siempre.
Asegurar una inferencia de alta calidad que mantenga la conciencia del contexto completo.

La atención es una operación compleja

El mecanismo de atención es el componente principal de los modelos de Transformer. Relaciona diferentes posiciones de una secuencia para calcular su representación, permitiendo que los modelos se centren en partes relevantes del texto y lo comprendan mejor. Escalar los Transformers a secuencias más largas enfrenta desafíos debido a la complejidad cuadrática de la atención completa.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Ampliando la longitud del contexto en los modelos de lenguaje grandes

Cómo convertir tu Llama en una Jirafa

La atención es una operación compleja

Was this article helpful?

¿Puede la IA convertirse en un Terminator de la vida real?

Un conjunto de datos de referencia para modelos de IA del clima

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.

Investigadores de la Universidad Nacional de Singapur proponen Mind-Video una nueva herramienta de IA que utiliza datos de fMRI del cerebro para recrear imágenes de video

Analógico y Digital Lo Mejor de Ambos Mundos en un Sistema Eficiente en Energía

Comprendiendo el sesgo algorítmico Tipos, causas y estudios de casos

Aprendizaje de Diferencia Temporal y la importancia de la exploración Una guía ilustrada