Olvida los 32K de GPT4 LongNet tiene un contexto de mil millones de tokens
Olvida los 32K de GPT4 LongNet, tiene un contexto de mil millones de tokens.
¿Cansado de la limitación de 2048, 4096 a 32768 tokens de contexto de GPT-3 y GPT-4? Microsoft puede tener una respuesta para ti (Un enfoque positivo)
El 19 de julio, Microsoft publicó un artículo que se considera un gran avance en el desarrollo de arquitecturas para desarrollar modelos de lenguaje grandes que podrían tener una longitud de contexto prácticamente ilimitada. Microsoft propuso y desarrolló un modelo transformer que puede escalar teóricamente a mil millones de tokens. Esto elimina el principal obstáculo en el caso de uso práctico para los grandes modelos de lenguaje también conocidos como “Restricción de longitud de contexto”.
En este artículo, repasaremos —
- Modelos de Lenguaje Grandes (LLMs)
- ¡Recuérdame! el contexto importa
- Cómo lograr un contexto más amplio
- Redes actuales para LLMs
- Dificultades de escalamiento
- La solución de Microsoft: LongNet
- Entrenador distribuido
- Resultados y verificación de la escala a 1B de tokens
- Reflexiones finales
Entonces, empecemos.
Modelos de Lenguaje Grandes (LLMs)
Los Modelos de Lenguaje Grandes son modelos de aprendizaje profundo que son profundos y tienen millones, si no miles de millones, de parámetros. Estos modelos generalmente se entrenan en el corpus de “texto general” de Internet. Dicho corpus puede tener hasta un billón de tokens (es decir, si existe en Internet, el texto se utilizó para entrenar el modelo de lenguaje grande).
- Varun Mohan y Jeff Wang de Codeium sobre liberar el poder de la inteligencia artificial en el desarrollo de software
- Investigadores desarrollaron un novedoso método de IA sin marcadores para rastrear las posturas de las aves en 3D utilizando grabaciones de video.
- Una nueva asociación para promover la IA responsable
Imagina una gran matriz donde cada palabra está conectada a cada palabra en una cadena dada. En pocas palabras, esto es autoatención. Nos importan las palabras o la ubicación de las palabras que tienen una relación más fuerte porque pueden predecir la siguiente palabra mejor que la relación más débil. Una relación puede ser de hasta 3 capas de profundidad o incluso 30 capas de profundidad, no importará en el gran esquema. Lo importante es que la autoatención determina (al menos en parte) el siguiente token. Un token es una palabra o una parte de la palabra, y a menudo se utiliza como sinónimo de una unidad funcional de la oración.
Los modelos de lenguaje grandes, por lo tanto, crean un mapa del lenguaje donde, dado el texto de entrada, se genera una salida basada en ese mapa. El mapa es extremadamente complejo. Este mapa se representa generalmente por…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Agrupación desatada Entendiendo el agrupamiento K-Means
- OpenAI insinúa la liberación del modelo GPT de código abierto
- Crea un agente de IA con ChatGPT
- Soñar primero, aprender después DECKARD es un enfoque de IA que utiliza LLMs para entrenar agentes de aprendizaje por refuerzo (RL)
- Una Visión General de los Autoencoders Variacionales
- Empleado de Shopify revela despidos impulsados por IA y crisis en el servicio al cliente
- Cómo los LLM basados en Transformer extraen conocimiento de sus parámetros