Ajusta tu propio modelo de Llama 2 en un cuaderno de Colab

Ajusta modelo Llama 2 en Colab

Una introducción práctica al ajuste fino de LLM

Imagen del autor

Con el lanzamiento de LLaMA v1, vimos una explosión Cámbrica de modelos ajustados finamente, incluyendo Alpaca, Vicuña y WizardLM, entre otros. Esta tendencia animó a diferentes empresas a lanzar sus propios modelos base con licencias adecuadas para uso comercial, como OpenLLaMA, Falcon, XGen, etc. El lanzamiento de Llama 2 ahora combina los mejores elementos de ambos lados: ofrece un modelo base altamente eficiente junto con una licencia más permisiva.

Durante la primera mitad de 2023, el panorama del software fue significativamente moldeado por el uso generalizado de APIs (como OpenAI API) para crear infraestructuras basadas en Modelos de Lenguaje Grandes (LLMs). Bibliotecas como LangChain y LlamaIndex jugaron un papel crítico en esta tendencia. A medida que avanzamos hacia la segunda mitad del año, el proceso de ajuste fino de estos modelos se está convirtiendo en un procedimiento estándar en el flujo de trabajo de LLMOps. Esta tendencia es impulsada por varios factores: el potencial de ahorro de costos, la capacidad de procesar datos confidenciales e incluso el potencial de desarrollar modelos que superen el rendimiento de modelos prominentes como ChatGPT y GPT-4 en ciertas tareas específicas.

En este artículo, veremos por qué funciona el ajuste fino y cómo implementarlo en un cuaderno de Google Colab para crear tu propio modelo Llama 2. Como de costumbre, el código está disponible en Colab y GitHub.

🔧 Antecedentes sobre el ajuste fino de LLMs

Imagen del autor

Los LLMs se pre-entrenan en un corpus extenso de texto. En el caso de Llama 2, sabemos muy poco sobre la composición del conjunto de entrenamiento, además de su longitud de 2 billones de tokens. En comparación, BERT (2018) fue “sólo” entrenado en el BookCorpus (800M palabras) y la Wikipedia en inglés (2,500M palabras). Por experiencia, este es un proceso muy costoso y largo con muchos problemas de hardware. Si quieres saber más al respecto, recomiendo leer el diario de Meta sobre el preentrenamiento del modelo OPT-175B.

Cuando el preentrenamiento está completo, los modelos auto-regresivos como Llama 2 pueden predecir el próximo token en una secuencia. Sin embargo, esto no los convierte en…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Una Bendición y un Monstruo Los Anunciantes Aceptan Cautelosamente la Inteligencia Artificial

Muchos anuncios son más fáciles de hacer con la tecnología en constante mejora. También representa una amenaza para u...

Inteligencia Artificial

Capturando Carbono

¿Pueden las tecnologías de captura de carbono aliviar el impacto del cambio climático?

Inteligencia Artificial

Esta investigación de IA de China presenta Consistent4D Un nuevo enfoque de inteligencia artificial para generar objetos dinámicos en 4D a partir de videos monocu

El campo de la visión por computadora se enfrenta a una tarea fundamental pero ardua: descifrar datos tridimensionale...