Zephyr 7B Beta Un buen maestro es todo lo que necesitas

Zephyr 7B Beta Un maestro excepcional es todo lo que necesitas

Destilación del conocimiento para Mistral 7B

Mistral 7B es uno de los mejores modelos de lenguaje pre-entrenados (LLMs). Al lanzar Zephyr 7B Alpha, Hugging Face ha demostrado que Mistral 7B, ajustado con DPO, puede superar a modelos de chat que son 10 veces más grandes e incluso igualar el rendimiento de GPT-4 para algunas tareas.

Con el “Alpha” en el nombre del modelo, Hugging Face evidentemente planeaba lanzar mejores versiones de Zephyr 7B. Y de hecho lanzaron Zephyr 7B Beta solo 2 semanas después. Hay un informe técnico en arXiv que describe el modelo y su evaluación:

Zephyr: Destilación directa de alineación de LMs (Tunstall et al., 2023)

En este artículo, veremos qué hace que Zephyr 7B Beta sea mejor que los LLMs más grandes. En particular, veremos cómo Hugging Face aprovechó los LLMs más grandes, como GPT-4, para enseñarle a Mistral 7B a responder instrucciones y alinear las respuestas con las preferencias humanas.

Destilación: Cuando los LLMs más pequeños aprenden de los más grandes

Dado que Hugging Face se basó en la destilación del conocimiento (KD) para entrenar a Zephyr, vamos a hacer un breve recordatorio de lo que es KD en el contexto de los LLMs.

La mayoría de los LLMs se entrenan en textos escritos por humanos. Los textos humanos presentan una alta diversidad de secuencias de tokens y vocabulario que es difícil de modelar. Debido a esta dificultad, necesitamos muchos datos para entrenar un LLM y lograr que modele correctamente el lenguaje.

Hay un atajo para reducir el costo y la dificultad del entrenamiento: la destilación del conocimiento (KD). Hay muchas formas de hacer KD. En esta sección, solo discutiré el método utilizado por Hugging Face.

Una vez entrenados en textos humanos, aunque los LLMs pueden ser muy buenos generando lenguaje, solo aproximan la verdadera distribución de probabilidad del lenguaje. Los LLMs generan por defecto secuencias de tokens mucho menos diversas que los humanos. Nota: Por eso a menudo se introduce muestreo aleatorio durante la inferencia, por ejemplo mediante muestreo de núcleo, para mejorar la diversidad en el texto generado.

Dado que las secuencias de tokens generadas por los LLMs son menos diversas que el texto humano, aprender a modelar estas secuencias generadas es una tarea mucho más fácil.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Zephyr 7B Beta Un buen maestro es todo lo que necesitas

Destilación del conocimiento para Mistral 7B

Destilación: Cuando los LLMs más pequeños aprenden de los más grandes

Was this article helpful?

Estudio intenta desbloquear el potencial de las LLMs en la resolución de problemas matemáticos

La caja de herramientas del científico de datos Análisis sintáctico

Inteligencia Artificial

Desbloqueando el poder del contexto con Google IA una competencia entre prefixLM y causalLM en el aprendizaje en contexto

Desde Guangzhou hasta Los Ángeles, los fabricantes de automóviles deslumbran con vehículos impulsados por inteligencia artificial

Investigadores de ETH Zurich presentan la arquitectura Fast Feedforward (FFF) un par de la arquitectura Feedforward (FF) que accede a bloques de sus neuronas en tiempo logarítmico.

Los empleados quieren ChatGPT en el trabajo. Los jefes se preocupan de que revelen secretos.

Conoce al Creador Estudiante de Robótica presenta la Silla de Ruedas Autónoma con NVIDIA Jetson

ChatGPT obtiene una puntuación en el 1% superior en la prueba de creatividad humana