La historia de los LLM de código abierto Los primeros días (Parte uno)

La fascinante historia de los LLM de código abierto Los primeros días (Parte uno)

Comprendiendo GPT-Neo, GPT-J, GLM, OPT, BLOOM y más…

(Foto por Chris Lawton en Unsplash)

La investigación sobre modelos de lenguaje tiene una larga historia que se remonta a modelos como GTP y GPT-2, e incluso técnicas basadas en RNN (por ejemplo, ULMFit) que preceden a los modelos de lenguaje basados en transformadores modernos. A pesar de esta larga historia, sin embargo, los modelos de lenguaje solo se han vuelto populares relativamente recientemente. El primer aumento de popularidad llegó con la propuesta de GPT-3 [1], que demostró que se podía lograr un impresionante rendimiento de aprendizaje de pocos ejemplos en muchas tareas a través de una combinación de preentrenamiento auto supervisado y aprendizaje en contexto; consulta a continuación.

(de [1])

Después de esto, el reconocimiento obtenido por GPT-3 llevó a la propuesta de una serie de grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Poco después, la investigación sobre la alineación de modelos de lenguaje llevó a la creación de modelos aún más impresionantes, como InstructGPT [19] y, sobre todo, su modelo hermano ChatGPT. El impresionante rendimiento de estos modelos generó un gran interés en la modelización del lenguaje y la IA generativa.

A pesar de ser increíblemente poderosos, muchos de los primeros avances en la investigación de LLM tienen una propiedad común: son de código cerrado. Cuando los modelos de lenguaje comenzaron a ganar reconocimiento generalizado, muchos de los LLMs más potentes solo estaban accesibles a través de APIs de pago (por ejemplo, la API de OpenAI) y la capacidad de investigar y desarrollar tales modelos estaba restringida a individuos o laboratorios seleccionados. Este enfoque es notablemente diferente de las prácticas típicas de investigación de IA, donde normalmente se fomenta la apertura y el intercambio de ideas para promover el progreso.

“Este acceso restringido ha limitado la capacidad de los investigadores para comprender cómo y por qué funcionan estos grandes modelos de lenguaje, dificultando el progreso en los esfuerzos por mejorar su robustez y mitigar problemas conocidos como sesgos y toxicidad.” – de [4]

Esta descripción general. A pesar del énfasis inicial en la tecnología propietaria, la comunidad de investigación de LLM poco a poco comenzó a crear variantes de código abierto de modelos de lenguaje populares como GPT-3. Aunque los primeros modelos de lenguaje de código abierto quedaban rezagados en comparación con los mejores modelos propietarios, sentaron las bases para…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Investigadores de Microsoft presentan FP8 Mixed-Precision Training Framework Potenciando la eficiencia del entrenamiento de modelos de lenguaje grandes

Los modelos de lenguaje grandes han demostrado una destreza sin precedentes en la creación y comprensión del lenguaje...

Noticias de Inteligencia Artificial

AI Ahora en el Aire Conoce a Ashley, el Primer Bot de DJ del Mundo.

Live 95.5, una popular estación de radio con sede en Portland, Oregón, ha dado un paso audaz hacia el futuro al prese...

Inteligencia Artificial

La minería de Bitcoin utilizó más agua que la ciudad de Nueva York el año pasado.

Un estudio encontró que el uso de agua por parte de los mineros de bitcoin alcanzó los 591 mil millones de galones ha...

Inteligencia Artificial

Lista de Modelos de Inteligencia Artificial para el Campo Médico (2023)

Dado el número de avances que ha hecho la inteligencia artificial (IA) en este año, no es de sorprender que haya sido...

Inteligencia Artificial

Modelos Generales del Mundo Investigación en IA de Pasarela Iniciando un Nuevo Esfuerzo de Investigación a Largo Plazo

Un modelo mundial es un sistema de IA que tiene como objetivo construir una comprensión interna de un entorno y utili...