Zephyr 7B Beta Un buen maestro es todo lo que necesitas

Zephyr 7B Beta Un maestro excepcional es todo lo que necesitas

Destilación del conocimiento para Mistral 7B

Imagen de Pixabay

Mistral 7B es uno de los mejores modelos de lenguaje pre-entrenados (LLMs). Al lanzar Zephyr 7B Alpha, Hugging Face ha demostrado que Mistral 7B, ajustado con DPO, puede superar a modelos de chat que son 10 veces más grandes e incluso igualar el rendimiento de GPT-4 para algunas tareas.

Con el “Alpha” en el nombre del modelo, Hugging Face evidentemente planeaba lanzar mejores versiones de Zephyr 7B. Y de hecho lanzaron Zephyr 7B Beta solo 2 semanas después. Hay un informe técnico en arXiv que describe el modelo y su evaluación:

Zephyr: Destilación directa de alineación de LMs (Tunstall et al., 2023)

En este artículo, veremos qué hace que Zephyr 7B Beta sea mejor que los LLMs más grandes. En particular, veremos cómo Hugging Face aprovechó los LLMs más grandes, como GPT-4, para enseñarle a Mistral 7B a responder instrucciones y alinear las respuestas con las preferencias humanas.

Destilación: Cuando los LLMs más pequeños aprenden de los más grandes

Dado que Hugging Face se basó en la destilación del conocimiento (KD) para entrenar a Zephyr, vamos a hacer un breve recordatorio de lo que es KD en el contexto de los LLMs.

La mayoría de los LLMs se entrenan en textos escritos por humanos. Los textos humanos presentan una alta diversidad de secuencias de tokens y vocabulario que es difícil de modelar. Debido a esta dificultad, necesitamos muchos datos para entrenar un LLM y lograr que modele correctamente el lenguaje.

Hay un atajo para reducir el costo y la dificultad del entrenamiento: la destilación del conocimiento (KD). Hay muchas formas de hacer KD. En esta sección, solo discutiré el método utilizado por Hugging Face.

Una vez entrenados en textos humanos, aunque los LLMs pueden ser muy buenos generando lenguaje, solo aproximan la verdadera distribución de probabilidad del lenguaje. Los LLMs generan por defecto secuencias de tokens mucho menos diversas que los humanos. Nota: Por eso a menudo se introduce muestreo aleatorio durante la inferencia, por ejemplo mediante muestreo de núcleo, para mejorar la diversidad en el texto generado.

Dado que las secuencias de tokens generadas por los LLMs son menos diversas que el texto humano, aprender a modelar estas secuencias generadas es una tarea mucho más fácil.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

Desbloqueando el poder del contexto con Google IA una competencia entre prefixLM y causalLM en el aprendizaje en contexto

La Guerra de Troya es famosa, donde Aquiles grabó su nombre en la historia para siempre al derrotar al príncipe Hécto...

Inteligencia Artificial

Desde Guangzhou hasta Los Ángeles, los fabricantes de automóviles deslumbran con vehículos impulsados por inteligencia artificial

Buenas noticias para los amantes de los autos: Dos aclamadas exposiciones de automóviles, que se llevan a cabo desde ...

Inteligencia Artificial

Los empleados quieren ChatGPT en el trabajo. Los jefes se preocupan de que revelen secretos.

Algunos líderes corporativos han prohibido el uso de herramientas de inteligencia artificial generativa debido a preo...

Inteligencia Artificial

Conoce al Creador Estudiante de Robótica presenta la Silla de Ruedas Autónoma con NVIDIA Jetson

Con la ayuda de la IA, los robots, los tractores y los cochecitos de bebé – incluso los parques de patinaje ...

Inteligencia Artificial

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana

La inteligencia artificial (IA) ha alcanzado nuevas alturas, según una investigación realizada por la Universidad de ...