La historia de los LLM de código abierto Los primeros días (Parte uno)

La fascinante historia de los LLM de código abierto Los primeros días (Parte uno)

Comprendiendo GPT-Neo, GPT-J, GLM, OPT, BLOOM y más…

La investigación sobre modelos de lenguaje tiene una larga historia que se remonta a modelos como GTP y GPT-2, e incluso técnicas basadas en RNN (por ejemplo, ULMFit) que preceden a los modelos de lenguaje basados en transformadores modernos. A pesar de esta larga historia, sin embargo, los modelos de lenguaje solo se han vuelto populares relativamente recientemente. El primer aumento de popularidad llegó con la propuesta de GPT-3 [1], que demostró que se podía lograr un impresionante rendimiento de aprendizaje de pocos ejemplos en muchas tareas a través de una combinación de preentrenamiento auto supervisado y aprendizaje en contexto; consulta a continuación.

Después de esto, el reconocimiento obtenido por GPT-3 llevó a la propuesta de una serie de grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Poco después, la investigación sobre la alineación de modelos de lenguaje llevó a la creación de modelos aún más impresionantes, como InstructGPT [19] y, sobre todo, su modelo hermano ChatGPT. El impresionante rendimiento de estos modelos generó un gran interés en la modelización del lenguaje y la IA generativa.

A pesar de ser increíblemente poderosos, muchos de los primeros avances en la investigación de LLM tienen una propiedad común: son de código cerrado. Cuando los modelos de lenguaje comenzaron a ganar reconocimiento generalizado, muchos de los LLMs más potentes solo estaban accesibles a través de APIs de pago (por ejemplo, la API de OpenAI) y la capacidad de investigar y desarrollar tales modelos estaba restringida a individuos o laboratorios seleccionados. Este enfoque es notablemente diferente de las prácticas típicas de investigación de IA, donde normalmente se fomenta la apertura y el intercambio de ideas para promover el progreso.

“Este acceso restringido ha limitado la capacidad de los investigadores para comprender cómo y por qué funcionan estos grandes modelos de lenguaje, dificultando el progreso en los esfuerzos por mejorar su robustez y mitigar problemas conocidos como sesgos y toxicidad.” – de [4]
Desmitificando la Matriz de Rotación
LoRA – Explicado de forma intuitiva y exhaustiva
Aprendizaje automático en la prueba de software

Esta descripción general. A pesar del énfasis inicial en la tecnología propietaria, la comunidad de investigación de LLM poco a poco comenzó a crear variantes de código abierto de modelos de lenguaje populares como GPT-3. Aunque los primeros modelos de lenguaje de código abierto quedaban rezagados en comparación con los mejores modelos propietarios, sentaron las bases para…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

La historia de los LLM de código abierto Los primeros días (Parte uno)

Comprendiendo GPT-Neo, GPT-J, GLM, OPT, BLOOM y más…

Was this article helpful?

Desmitificando la Matriz de Rotación

Guía de las configuraciones avanzadas de ChatGPT Top P, penalizaciones de frecuencia, temperatura y más

Inteligencia Artificial

Investigadores de Microsoft presentan FP8 Mixed-Precision Training Framework Potenciando la eficiencia del entrenamiento de modelos de lenguaje grandes

AI Ahora en el Aire Conoce a Ashley, el Primer Bot de DJ del Mundo.

¿Estás utilizando la Generación Aumentada con Recuperación (RAG) para Biomedicina? Conoce a MedCPT Un Modelo Transformador Pre-entrenado Contrastivo para la Recuperación de Información Biomédica sin Necesidad de Datos de Entrenamiento

La minería de Bitcoin utilizó más agua que la ciudad de Nueva York el año pasado.

Lista de Modelos de Inteligencia Artificial para el Campo Médico (2023)

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo