La historia de los LLM de código abierto Los primeros días (Parte uno)
La fascinante historia de los LLM de código abierto Los primeros días (Parte uno)
Comprendiendo GPT-Neo, GPT-J, GLM, OPT, BLOOM y más…
![(Foto por Chris Lawton en Unsplash)](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*64FP3G3tg2sqzWouCgT3Lg.jpeg)
La investigación sobre modelos de lenguaje tiene una larga historia que se remonta a modelos como GTP y GPT-2, e incluso técnicas basadas en RNN (por ejemplo, ULMFit) que preceden a los modelos de lenguaje basados en transformadores modernos. A pesar de esta larga historia, sin embargo, los modelos de lenguaje solo se han vuelto populares relativamente recientemente. El primer aumento de popularidad llegó con la propuesta de GPT-3 [1], que demostró que se podía lograr un impresionante rendimiento de aprendizaje de pocos ejemplos en muchas tareas a través de una combinación de preentrenamiento auto supervisado y aprendizaje en contexto; consulta a continuación.
![(de [1])](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*9k0Gu3UDguVWHHOt.png)
Después de esto, el reconocimiento obtenido por GPT-3 llevó a la propuesta de una serie de grandes modelos de lenguaje (LLMs, por sus siglas en inglés). Poco después, la investigación sobre la alineación de modelos de lenguaje llevó a la creación de modelos aún más impresionantes, como InstructGPT [19] y, sobre todo, su modelo hermano ChatGPT. El impresionante rendimiento de estos modelos generó un gran interés en la modelización del lenguaje y la IA generativa.
A pesar de ser increíblemente poderosos, muchos de los primeros avances en la investigación de LLM tienen una propiedad común: son de código cerrado. Cuando los modelos de lenguaje comenzaron a ganar reconocimiento generalizado, muchos de los LLMs más potentes solo estaban accesibles a través de APIs de pago (por ejemplo, la API de OpenAI) y la capacidad de investigar y desarrollar tales modelos estaba restringida a individuos o laboratorios seleccionados. Este enfoque es notablemente diferente de las prácticas típicas de investigación de IA, donde normalmente se fomenta la apertura y el intercambio de ideas para promover el progreso.
“Este acceso restringido ha limitado la capacidad de los investigadores para comprender cómo y por qué funcionan estos grandes modelos de lenguaje, dificultando el progreso en los esfuerzos por mejorar su robustez y mitigar problemas conocidos como sesgos y toxicidad.” – de [4]
Esta descripción general. A pesar del énfasis inicial en la tecnología propietaria, la comunidad de investigación de LLM poco a poco comenzó a crear variantes de código abierto de modelos de lenguaje populares como GPT-3. Aunque los primeros modelos de lenguaje de código abierto quedaban rezagados en comparación con los mejores modelos propietarios, sentaron las bases para…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ¡Gen-AI Diversión, Miedo y Futuro!
- Transmisión de respuestas de modelos de lenguaje amplios en Amazon SageMaker JumpStart
- Utilice la IA generativa para aumentar la productividad de los agentes mediante la automatización de la síntesis de llamadas.
- Probabilidad condicional y Teorema de Bayes simplemente explicados
- Entre sueños y realidad Texto generativo y alucinaciones
- OpenAI lidera la Inteligencia Artificial de próxima generación con GPT-4 Turbo
- Los chatbots pueden ‘alucinar’ más a menudo de lo que muchos se dan cuenta