Olvida los 32K de GPT4 LongNet tiene un contexto de mil millones de tokens

Olvida los 32K de GPT4 LongNet, tiene un contexto de mil millones de tokens.

¿Cansado de la limitación de 2048, 4096 a 32768 tokens de contexto de GPT-3 y GPT-4? Microsoft puede tener una respuesta para ti (Un enfoque positivo)

El 19 de julio, Microsoft publicó un artículo que se considera un gran avance en el desarrollo de arquitecturas para desarrollar modelos de lenguaje grandes que podrían tener una longitud de contexto prácticamente ilimitada. Microsoft propuso y desarrolló un modelo transformer que puede escalar teóricamente a mil millones de tokens. Esto elimina el principal obstáculo en el caso de uso práctico para los grandes modelos de lenguaje también conocidos como “Restricción de longitud de contexto”.

En este artículo, repasaremos —

Modelos de Lenguaje Grandes (LLMs)
¡Recuérdame! el contexto importa
Cómo lograr un contexto más amplio
Redes actuales para LLMs
Dificultades de escalamiento
La solución de Microsoft: LongNet
Entrenador distribuido
Resultados y verificación de la escala a 1B de tokens
Reflexiones finales

Entonces, empecemos.

Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje Grandes son modelos de aprendizaje profundo que son profundos y tienen millones, si no miles de millones, de parámetros. Estos modelos generalmente se entrenan en el corpus de “texto general” de Internet. Dicho corpus puede tener hasta un billón de tokens (es decir, si existe en Internet, el texto se utilizó para entrenar el modelo de lenguaje grande).

Imagina una gran matriz donde cada palabra está conectada a cada palabra en una cadena dada. En pocas palabras, esto es autoatención. Nos importan las palabras o la ubicación de las palabras que tienen una relación más fuerte porque pueden predecir la siguiente palabra mejor que la relación más débil. Una relación puede ser de hasta 3 capas de profundidad o incluso 30 capas de profundidad, no importará en el gran esquema. Lo importante es que la autoatención determina (al menos en parte) el siguiente token. Un token es una palabra o una parte de la palabra, y a menudo se utiliza como sinónimo de una unidad funcional de la oración.

Los modelos de lenguaje grandes, por lo tanto, crean un mapa del lenguaje donde, dado el texto de entrada, se genera una salida basada en ese mapa. El mapa es extremadamente complejo. Este mapa se representa generalmente por…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Olvida los 32K de GPT4 LongNet tiene un contexto de mil millones de tokens

¿Cansado de la limitación de 2048, 4096 a 32768 tokens de contexto de GPT-3 y GPT-4? Microsoft puede tener una respuesta para ti (Un enfoque positivo)

Modelos de Lenguaje Grandes (LLMs)

Was this article helpful?

Varun Mohan y Jeff Wang de Codeium sobre liberar el poder de la inteligencia artificial en el desarrollo de software

NLP moderno Una descripción detallada. Parte 3 BERT

Inteligencia Artificial

Implementar una solución de seguimiento de múltiples objetos en un conjunto de datos personalizado con Amazon SageMaker.

USENET, la OG Red Social, resurge nuevamente como un Fénix solo de texto

Acelere el ciclo de vida del desarrollo del chatbot de Amazon Lex con Test Workbench.

Investigadores del Laboratorio de Inteligencia Artificial de Shanghai y del MIT presentan la red neuronal recurrente RNN jerárquicamente controlada una nueva frontera en la eficiente modelización de dependencia a largo plazo

Nueva York planea invertir 1.000 millones de dólares para expandir la investigación de chips

Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip