Ampliando la longitud del contexto en los modelos de lenguaje grandes
Expandiendo la longitud del contexto en los modelos de lenguaje extensos
Cómo convertir tu Llama en una Jirafa
![Imagen del autor. (Llamas generadas por IA)](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*0xySt8rSH3BQ2yIwvyGMqA.png)
La longitud del contexto se refiere al número máximo de tokens que el modelo puede recordar al generar texto. Una ventana de contexto más larga permite que el modelo comprenda mejor las dependencias a largo plazo en el texto. Los modelos con contextos más largos pueden establecer conexiones entre ideas que están lejos en el texto, generando resultados más coherentes a nivel global.
Durante el entrenamiento, el modelo procesa los datos de texto en fragmentos o ventanas de longitud fija. Los modelos deben ser entrenados con textos extensos para aprovechar realmente los contextos largos. Las secuencias de entrenamiento deben contener documentos, libros, artículos, etc., con miles de tokens. La longitud de los datos de entrenamiento establece un límite en la longitud del contexto utilizable.
Entonces, ¿por qué no entrenamos modelos en secuencias más largas?
No tan rápido.
- ¿Puede la IA convertirse en un Terminator de la vida real?
- Esta investigación de encuestas de Inteligencia Artificial proporciona una visión general completa de los modelos de lenguaje grandes aplicados al dominio de la salud.
- Este estudio de investigación de IA propone FireAct un nuevo enfoque de Inteligencia Artificial para el ajuste fino de modelos de lenguaje con trayectorias de múltiples tareas y métodos de agentes.
Aumentar la longitud del contexto aumenta el número de combinaciones posibles de tokens que el modelo debe aprender a predecir con precisión. Esto permite un modelado a largo plazo más robusto, pero también requiere más memoria y capacidad de procesamiento, lo que conlleva costos de entrenamiento más altos.
Sin ninguna optimización, el cálculo escala de manera cuadrática con la longitud del contexto, lo que significa que un modelo de 4096 tokens requerirá 64 veces más cálculos que un modelo de 512 tokens.
Puedes utilizar métodos de atención dispersa o aproximada para reducir el costo de cálculo, pero también pueden afectar la precisión del modelo.
Entrenar y utilizar modelos de lenguaje con contextos extensos presenta tres desafíos principales:
- Ajustar contextos largos en el modelo.
- Acelerar la inferencia y el entrenamiento para que no duren para siempre.
- Asegurar una inferencia de alta calidad que mantenga la conciencia del contexto completo.
La atención es una operación compleja
El mecanismo de atención es el componente principal de los modelos de Transformer. Relaciona diferentes posiciones de una secuencia para calcular su representación, permitiendo que los modelos se centren en partes relevantes del texto y lo comprendan mejor. Escalar los Transformers a secuencias más largas enfrenta desafíos debido a la complejidad cuadrática de la atención completa.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de Apple y CMU revelan el Aprendiz de IU Sin Fin Revolucionando la accesibilidad de las aplicaciones a través del Aprendizaje Automático Continuo
- Revisión del Generador de Voz de WellSaid Labs AI (Octubre 2023)
- ¿Es verdaderamente seguro el IA multilingüe? Exponiendo las vulnerabilidades de los grandes modelos de lenguaje en idiomas con recursos limitados
- ¿Puede comprimir los documentos recuperados mejorar el rendimiento del modelo de lenguaje? Este artículo de IA presenta RECOMP Mejorando los modelos de lenguaje con recuperación y compresión selectiva.
- Rendimiento de Apple M1 y M2 para entrenar modelos SSL
- ReactJS para IA y Aprendizaje Automático Una Combinación Poderosa
- Microsoft AI reveló involuntariamente un secreto que otorga acceso a 38TB de datos confidenciales durante 3 años