Ampliando la longitud del contexto en los modelos de lenguaje grandes

Expandiendo la longitud del contexto en los modelos de lenguaje extensos

Cómo convertir tu Llama en una Jirafa

Imagen del autor. (Llamas generadas por IA)

La longitud del contexto se refiere al número máximo de tokens que el modelo puede recordar al generar texto. Una ventana de contexto más larga permite que el modelo comprenda mejor las dependencias a largo plazo en el texto. Los modelos con contextos más largos pueden establecer conexiones entre ideas que están lejos en el texto, generando resultados más coherentes a nivel global.

Durante el entrenamiento, el modelo procesa los datos de texto en fragmentos o ventanas de longitud fija. Los modelos deben ser entrenados con textos extensos para aprovechar realmente los contextos largos. Las secuencias de entrenamiento deben contener documentos, libros, artículos, etc., con miles de tokens. La longitud de los datos de entrenamiento establece un límite en la longitud del contexto utilizable.

Entonces, ¿por qué no entrenamos modelos en secuencias más largas?

No tan rápido.

Aumentar la longitud del contexto aumenta el número de combinaciones posibles de tokens que el modelo debe aprender a predecir con precisión. Esto permite un modelado a largo plazo más robusto, pero también requiere más memoria y capacidad de procesamiento, lo que conlleva costos de entrenamiento más altos.

Sin ninguna optimización, el cálculo escala de manera cuadrática con la longitud del contexto, lo que significa que un modelo de 4096 tokens requerirá 64 veces más cálculos que un modelo de 512 tokens.

Puedes utilizar métodos de atención dispersa o aproximada para reducir el costo de cálculo, pero también pueden afectar la precisión del modelo.

Entrenar y utilizar modelos de lenguaje con contextos extensos presenta tres desafíos principales:

  • Ajustar contextos largos en el modelo.
  • Acelerar la inferencia y el entrenamiento para que no duren para siempre.
  • Asegurar una inferencia de alta calidad que mantenga la conciencia del contexto completo.

La atención es una operación compleja

El mecanismo de atención es el componente principal de los modelos de Transformer. Relaciona diferentes posiciones de una secuencia para calcular su representación, permitiendo que los modelos se centren en partes relevantes del texto y lo comprendan mejor. Escalar los Transformers a secuencias más largas enfrenta desafíos debido a la complejidad cuadrática de la atención completa.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

¡Construye y juega! ¡Tu propio modelo V&L equipado con LLM!

Los modelos de lenguaje grandes (LLM) están demostrando cada vez más su valor. La incorporación de imágenes en los LL...

Investigación

Investigadores de LinkedIn y UC Berkeley proponen un nuevo método para detectar fotos de perfil generadas por IA.

La sofisticación de los perfiles falsos ha aumentado junto con la proliferación de medios generados por inteligencia ...

Inteligencia Artificial

Analógico y Digital Lo Mejor de Ambos Mundos en un Sistema Eficiente en Energía

Un nuevo dispositivo combina semiconductores bidimensionales ultrafinos y materiales ferroeléctricos, con el objetivo...

Inteligencia Artificial

Comprendiendo el sesgo algorítmico Tipos, causas y estudios de casos

Introducción ¿Alguna vez te has preguntado por qué tu feed de redes sociales parece predecir tus intereses con una pr...

Inteligencia Artificial

Aprendizaje de Diferencia Temporal y la importancia de la exploración Una guía ilustrada

Recientemente, los algoritmos de Aprendizaje por Reforzamiento (RL) han ganado mucha atención al resolver problemas d...