Zephyr 7B Beta Un buen maestro es todo lo que necesitas
Zephyr 7B Beta Un maestro excepcional es todo lo que necesitas
Destilación del conocimiento para Mistral 7B
![Imagen de Pixabay](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*YbEV-7Jub1c6hjtZXjSjkQ.png)
Mistral 7B es uno de los mejores modelos de lenguaje pre-entrenados (LLMs). Al lanzar Zephyr 7B Alpha, Hugging Face ha demostrado que Mistral 7B, ajustado con DPO, puede superar a modelos de chat que son 10 veces más grandes e incluso igualar el rendimiento de GPT-4 para algunas tareas.
Con el “Alpha” en el nombre del modelo, Hugging Face evidentemente planeaba lanzar mejores versiones de Zephyr 7B. Y de hecho lanzaron Zephyr 7B Beta solo 2 semanas después. Hay un informe técnico en arXiv que describe el modelo y su evaluación:
Zephyr: Destilación directa de alineación de LMs (Tunstall et al., 2023)
En este artículo, veremos qué hace que Zephyr 7B Beta sea mejor que los LLMs más grandes. En particular, veremos cómo Hugging Face aprovechó los LLMs más grandes, como GPT-4, para enseñarle a Mistral 7B a responder instrucciones y alinear las respuestas con las preferencias humanas.
- Estudio intenta desbloquear el potencial de las LLMs en la resolución de problemas matemáticos
- Segundo candidato impulsado por IA busca cargo en Japón
- Este artículo AI propone AugGPT un enfoque de ampliación de datos de texto basado en ChatGPT.
Destilación: Cuando los LLMs más pequeños aprenden de los más grandes
Dado que Hugging Face se basó en la destilación del conocimiento (KD) para entrenar a Zephyr, vamos a hacer un breve recordatorio de lo que es KD en el contexto de los LLMs.
La mayoría de los LLMs se entrenan en textos escritos por humanos. Los textos humanos presentan una alta diversidad de secuencias de tokens y vocabulario que es difícil de modelar. Debido a esta dificultad, necesitamos muchos datos para entrenar un LLM y lograr que modele correctamente el lenguaje.
Hay un atajo para reducir el costo y la dificultad del entrenamiento: la destilación del conocimiento (KD). Hay muchas formas de hacer KD. En esta sección, solo discutiré el método utilizado por Hugging Face.
Una vez entrenados en textos humanos, aunque los LLMs pueden ser muy buenos generando lenguaje, solo aproximan la verdadera distribución de probabilidad del lenguaje. Los LLMs generan por defecto secuencias de tokens mucho menos diversas que los humanos. Nota: Por eso a menudo se introduce muestreo aleatorio durante la inferencia, por ejemplo mediante muestreo de núcleo, para mejorar la diversidad en el texto generado.
Dado que las secuencias de tokens generadas por los LLMs son menos diversas que el texto humano, aprender a modelar estas secuencias generadas es una tarea mucho más fácil.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Conoce a Skywork-13B una familia de grandes modelos de lenguaje (LLMs) entrenados en un corpus de más de 3.2 billones de tokens extraídos tanto de textos en inglés como en chino.
- Hablar solo sobre lo que has leído ¿Pueden los LLM generalizar más allá de sus datos de preentrenamiento?
- Explora técnicas avanzadas para la optimización de hiperparámetros con Amazon SageMaker Automatic Model Tuning
- Cómo enseñamos a Google Translate a reconocer los homónimos
- Retrocediendo en el tiempo la IA descifra enigmas romanos ancestrales
- Leslie Orne, Presidenta y CEO de Trinity Life Sciences — Innovaciones en Ciencias de la Vida, Estrategias basadas en Datos, IA en Farmacia, Liderazgo Ejecutivo, Transacciones Estratégicas, Planificación de Marca y Equilibrio entre el Trabajo y la Vida
- Encontrar respuestas (sobre la mejor manera de encontrar respuestas)