Olvida los 32K de GPT4 LongNet tiene un contexto de mil millones de tokens

Olvida los 32K de GPT4 LongNet, tiene un contexto de mil millones de tokens.

¿Cansado de la limitación de 2048, 4096 a 32768 tokens de contexto de GPT-3 y GPT-4? Microsoft puede tener una respuesta para ti (Un enfoque positivo)

El 19 de julio, Microsoft publicó un artículo que se considera un gran avance en el desarrollo de arquitecturas para desarrollar modelos de lenguaje grandes que podrían tener una longitud de contexto prácticamente ilimitada. Microsoft propuso y desarrolló un modelo transformer que puede escalar teóricamente a mil millones de tokens. Esto elimina el principal obstáculo en el caso de uso práctico para los grandes modelos de lenguaje también conocidos como “Restricción de longitud de contexto”.

En este artículo, repasaremos —

  1. Modelos de Lenguaje Grandes (LLMs)
  2. ¡Recuérdame! el contexto importa
  3. Cómo lograr un contexto más amplio
  4. Redes actuales para LLMs
  5. Dificultades de escalamiento
  6. La solución de Microsoft: LongNet
  7. Entrenador distribuido
  8. Resultados y verificación de la escala a 1B de tokens
  9. Reflexiones finales

Entonces, empecemos.

Modelos de Lenguaje Grandes (LLMs)

Los Modelos de Lenguaje Grandes son modelos de aprendizaje profundo que son profundos y tienen millones, si no miles de millones, de parámetros. Estos modelos generalmente se entrenan en el corpus de “texto general” de Internet. Dicho corpus puede tener hasta un billón de tokens (es decir, si existe en Internet, el texto se utilizó para entrenar el modelo de lenguaje grande).

Imagina una gran matriz donde cada palabra está conectada a cada palabra en una cadena dada. En pocas palabras, esto es autoatención. Nos importan las palabras o la ubicación de las palabras que tienen una relación más fuerte porque pueden predecir la siguiente palabra mejor que la relación más débil. Una relación puede ser de hasta 3 capas de profundidad o incluso 30 capas de profundidad, no importará en el gran esquema. Lo importante es que la autoatención determina (al menos en parte) el siguiente token. Un token es una palabra o una parte de la palabra, y a menudo se utiliza como sinónimo de una unidad funcional de la oración.

Los modelos de lenguaje grandes, por lo tanto, crean un mapa del lenguaje donde, dado el texto de entrada, se genera una salida basada en ese mapa. El mapa es extremadamente complejo. Este mapa se representa generalmente por…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Ciencia de Datos

Implementar una solución de seguimiento de múltiples objetos en un conjunto de datos personalizado con Amazon SageMaker.

La demanda de seguimiento de múltiples objetos (MOT) en el análisis de video ha aumentado significativamente en mucha...

Noticias de Inteligencia Artificial

Acelere el ciclo de vida del desarrollo del chatbot de Amazon Lex con Test Workbench.

Amazon Lex se complace en anunciar Test Workbench, una nueva solución de prueba de bots que proporciona herramientas ...

Inteligencia Artificial

Nueva York planea invertir 1.000 millones de dólares para expandir la investigación de chips

La medida tiene como objetivo atraer $9 mil millones de inversión corporativa, ya que Nueva York lucha por ser sede d...

Inteligencia Artificial

Silicon Volley Los diseñadores utilizan la IA generativa para obtener un asistente de Chip

Un artículo de investigación publicado hoy describe formas en que la inteligencia artificial generativa puede ayudar ...