Zephyr-7B LLM Hiper-optimizado de HuggingFace construido sobre Mistral 7B

Zephyr-7B LLM Hiper-optimizado de HuggingFace construido sobre Mistral 7B La nueva generación de belleza y moda

Introducción

La evolución de los modelos de lenguaje grandes y abiertos (LLMs) ha impactado significativamente a la comunidad de investigación de IA, particularmente en el desarrollo de chatbots y aplicaciones similares. Después del lanzamiento de modelos como LLaMA, ha habido un aumento en la investigación sobre ajuste fino eficiente, manejo extendido de indicaciones, generación aumentada con recuperación (RAG) y cuantificación.

El modelo LLaMA, por ejemplo, marcó una nueva era en el ajuste fino y la contextualización de indicaciones, abriendo el camino para modelos posteriores como MPT de MosaicML, RedPajama-INCITE de Together AI, Falcon de TII y Llama 2 de Meta. Cada uno de estos modelos contribuye con capacidades únicas, mejorando la funcionalidad general y el alcance de los LLMs.

Mistral AI, una startup de París fundada por antiguos empleados de Google DeepMind y Meta, se ha hecho un nombre con su primer lanzamiento: Mistral 7B.

La ventaja de Mistral 7B radica en su eficiencia, ofreciendo capacidades similares o mejoradas en comparación con modelos como Llama 2 pero con menos demanda computacional.

Específicamente ajustado para tareas instructivas, Mistral 7B Instruct destaca en plataformas como Hugging Face, donde supera a otros modelos del mismo tamaño y compite de cerca con aquellos que tienen casi el doble de sus parámetros.

Basándose en esto, Hugging Face presentó Zephyr 7B Alpha, mostrando que un Mistral 7B ajustado fino puede superar las habilidades de modelos de chat significativamente más grandes e, incluso en algunas tareas, rivalizar con GPT-4. El “Alpha” fue solo el comienzo, ya que pronto le siguió Zephyr 7B Beta.

Este artículo explorará cómo Zephyr 7B aprovecha el poder de modelos más grandes para refinar su capacidad de responder y alinearse con la instrucción humana, un proceso posible gracias a la técnica de destilación del conocimiento. Este método implica entrenar modelos más pequeños en los patrones complejos aprendidos por los más grandes, reduciendo las demandas de entrenamiento sin sacrificar las capacidades de modelado del lenguaje. Nos adentraremos en los detalles del enfoque de destilación de conocimiento de Hugging Face.

Destilación del conocimiento

Una innovación clave en el desarrollo de modelos como Zephyr-7B es el ajuste fino supervisado destilado (dSFT). Este método consiste en utilizar la salida de un modelo “profesor” más grande y capaz para entrenar a un modelo “estudiante” más pequeño, mejorando su precisión. Aunque la destilación mejora los modelos abiertos en diversas tareas, aún existe una brecha en el rendimiento en comparación con los modelos profesores.

La destilación del conocimiento es un método en el aprendizaje automático donde un modelo compacto, denominado “estudiante”, aprende a replicar el rendimiento de un modelo más grande y complejo, conocido como “profesor”. Esta técnica permite que el estudiante realice tareas que antes estaban más allá de su capacidad, transfiriendo los patrones intrincados aprendidos por el profesor.

Destilación del conocimiento, Modelo Profesor-Estudiante

Destilación del conocimiento | Modelo Profesor-Estudiante

El modelo estudiante se entrena en las probabilidades de salida o características generadas por el modelo profesor, centrándose en igualar estas salidas en lugar de solo las predicciones finales. Esto permite al estudiante aprender los procesos de toma de decisiones matizados del profesor, lo que a menudo resulta en un rendimiento mejorado en comparación con el entrenamiento solo con los datos verdaderos.

Históricamente, la destilación del conocimiento se ha utilizado en modelos como las redes de destilación originales de Hinton, y más recientemente en NLP con modelos como DistilBERT, que destilaron el modelo BERT en una versión más pequeña y rápida que conserva la mayoría de las capacidades de comprensión del lenguaje del original. Otro ejemplo es TinyBERT, que va más allá en la optimización del tamaño y la velocidad para dispositivos móviles o de borde.

En el caso de Zephyr-7B, la destilación del conocimiento se utiliza para dotar a un modelo más pequeño de 7B parámetros con las capacidades de sus contrapartes más grandes. De esta manera, Zephyr-7B logra un equilibrio entre rendimiento y eficiencia, lo que lo hace adecuado para entornos donde los recursos computacionales son limitados, sin sacrificar la calidad de la interacción y la comprensión.

Al desarrollar Zephyr-7B, los investigadores abordaron el desafío de alinear un pequeño LLM abierto completamente a través de la destilación. Introdujeron un enfoque llamado optimización de preferencia directa destilada (dDPO), que utiliza la retroalimentación de IA de un conjunto de modelos maestros como datos de preferencia. Este método, que no requiere anotación humana, reduce significativamente el tiempo y los recursos necesarios para el entrenamiento del modelo.

Construyendo ZEPHYR-7B

Para validar dDPO, los investigadores construyeron ZEPHYR-7B, una versión alineada del modelo Mistral-7B. El proceso involucró tres pasos:

  1. dSFT utilizando el conjunto de datos UltraChat: La Afinación Supervisada Destilada (dSFT) es un método avanzado para entrenar grandes modelos de lenguaje (LLM) aprovechando la salida de modelos “maestros” más grandes y capaces. Comienza con un LLM crudo que se entrena para responder a las solicitudes del usuario. A diferencia de la afinación supervisada tradicional (SFT) que utiliza un conjunto de datos fijo, dSFT emplea un enfoque dinámico donde el propio modelo genera instrucciones y respuestas. Este método, conocido como autoinstrucción, implica utilizar el modelo maestro tanto para responder como para refinar las instrucciones basándose en las respuestas. El proceso comienza con un conjunto de solicitudes iniciales (x₀₁, x₀₂, …, x₀_J) que representan diversos temas. Cada solicitud se refina de forma iterativa: para una solicitud dada x₀, se genera una respuesta y₀ mediante el modelo maestro, y luego se muestrea una nueva instrucción x₁ en función de x₀ y y₀. El conjunto de datos final C = {(x₁, y₁), …, (x_J, y_J)} se utiliza para ajustar el modelo.
  2. Incorporando datos de retroalimentación de IA de UltraFeedback: Estos datos fueron cruciales para refinar las respuestas del modelo. En este paso, el modelo genera respuestas a varias solicitudes (como describir cómo hacer brownies de chocolate) que luego son clasificadas por un modelo más avanzado como GPT-4. La respuesta de mayor puntuación (yw) y una respuesta de menor puntuación elegida al azar (yl) forman un conjunto de datos de retroalimentación D.
  3. Aplicando dDPO: La última fase, Optimización de Preferencia Directa Destilada (dDPO), implica refinar el modelo dSFT maximizando la probabilidad de clasificar las respuestas preferidas como más altas. Esto se logra utilizando una función de recompensa rθ(x, y) en el modelo de preferencia, que se basa en la política óptima LLM π* y la política original πdSFT. El objetivo de optimización se formula como πθ = max π E (x, yw, yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)), lo que simplifica el proceso de entrenamiento al comenzar con la versión dSFT del modelo y repetir cada triple de IA.

El método utilizado en Zephyr-7B refleja los procesos utilizados en InstructGPT.

El método utilizado en Zephyr-7B refleja los procesos utilizados en InstructGPT.

Es sorprendente que Zephyr-7B logre un rendimiento comparable a modelos de 70 mil millones de parámetros mucho más grandes alineados con la retroalimentación humana. Sobresale tanto en pruebas académicas como en capacidades de conversación, lo que resalta la efectividad del aprendizaje de preferencias en el desarrollo del modelo. Para explorar más a fondo, los modelos, el código y las instrucciones están disponibles en el Repositorio GitHub de Hugging Face.

Abordando el Desafío de la Alineación de la Intención

Una preocupación notable con los LLM ha sido su alineación con la intención humana. Los modelos anteriores a menudo no lograban producir respuestas que coincidieran con las preferencias del usuario, lo que resultaba en respuestas inexactas o irrelevantes. Sin embargo, evaluaciones recientes como MT-Bench y AlpacaEval han proporcionado herramientas para cuantificar y mejorar este aspecto, resaltando el rendimiento superior de los modelos propietarios entrenados con retroalimentación humana sobre aquellos entrenados únicamente mediante destilación.

Métodos de Evaluación

La evaluación de Zephyr 7B involucró pruebas rigurosas en evaluaciones que evalúan las habilidades conversacionales del modelo tanto en contextos de una sola respuesta como de múltiples respuestas:

  • MT-Bench: Esta evaluación de múltiples respuestas requiere que un modelo aborde 160 preguntas que abarcan ocho dominios. Cada respuesta es evaluada por GPT-4, y la puntuación final del modelo refleja el promedio de dos rondas de preguntas.
  • AlpacaEval: En esta evaluación de una sola respuesta, se presentan al modelo 805 preguntas sobre varios temas. El enfoque aquí se centra en la utilidad del modelo, y GPT-4 puntúa las respuestas para determinar la tasa de victorias comparativas.

Además, Zephyr 7B fue probado en el Open LLM Leaderboard, que, si bien no es una evaluación directa de habilidades conversacionales, ofrece información sobre el razonamiento y la veracidad del modelo después del ajuste fino.

Zephyr 7B fue comparado con una variedad de modelos abiertos y propietarios, incluyendo aquellos con diferentes tamaños y métodos de alineación. Estableció nuevos referentes para los modelos 7B en MT-Bench y AlpacaEval y mostró un rendimiento competitivo frente a modelos más grandes, validando la efectividad de la optimización directa de preferencias (dDPO) en el entrenamiento.

Las fases de entrenamiento SFT y DPO fueron configuradas meticulosamente, abarcando múltiples épocas y ajustes finos en las tasas de aprendizaje y tamaños de lote para un rendimiento óptimo. El modelo final de Zephyr no solo emergió resistente al sobreajuste, sino también mejorado en el manejo de tareas prácticas y referentes académicos.

Conjuntos de datos y resultados

Conjuntos de datos utilizados

En el desarrollo de Zephyr-7B se utilizaron dos conjuntos de datos clave para entrenar y refinar el modelo, cada uno abordando diferentes aspectos de la generación de diálogos:

Conjunto de datos UltraChat

  • Fuente: Desarrollado a partir de diálogos generados por GPT-3.5-TURBO.
  • Contenido: Contiene 1,47 millones de diálogos de múltiples turnos sobre 30 temas y 20 tipos de fuentes de texto.
  • Refinamiento: El conjunto de datos se sometió a una heurística de capitalización para corregir problemas gramaticales y se aplicaron filtros para aumentar la utilidad de las respuestas y eliminar frases introductorias poco útiles.

Conjunto de datos UltraFeedback

  • Fuente: Consta de promps evaluados por GPT-4, que calificó las respuestas basándose en la capacidad de seguir instrucciones, honestidad y utilidad.
  • Contenido: Incluye 64.000 prompts con cuatro respuestas cada uno, calificados por GPT-4.
  • Preferencias binarias: Generadas eligiendo la respuesta con la puntuación media más alta como “elegida” y una aleatoria de entre las restantes como “rechazada” para aumentar la diversidad y desafiar el proceso de Optimización Directa de Preferencias (DPO).

Ambos conjuntos de datos son cruciales para entrenar a Zephyr-7B en la comprensión y generación de diálogos similares a los humanos, que sigan instrucciones, sean honestos y útiles. Estos conjuntos de datos se han puesto a disposición en el Hugging Face Hub, al que puedes acceder aquí.

Rendimiento y resultados

El siguiente gráfico ilustra el rendimiento de Zephyr 7B en diversas categorías de tareas en comparación con otros modelos como GPT-3.5-turbo, Claude 1, GPT-4 y Llama-2-70b-chat. Las categorías pueden incluir Escritura, Humanidades, Juegos de Rol, Razonamiento, STEM, Extracción, Codificación y Matemáticas.

A partir del gráfico, podemos inferir en qué dominios Zephyr 7B destaca y en qué dominios pueden ser necesarias mejoras adicionales. Por ejemplo, si la línea de Zephyr se extiende más en el eje de Escritura en comparación con otros modelos, sugiere que Zephyr es particularmente fuerte en la generación de contenido escrito. Por el contrario, si la línea está más cerca del centro en el eje de Matemáticas, puede indicar una debilidad relativa en la resolución de problemas matemáticos.

El gráfico de radar ayuda a identificar las fortalezas y debilidades de Zephyr 7B, proporcionando una representación visual de dónde se encuentra en comparación con modelos más grandes como GPT-4 y modelos especializados como Llama-2-70b-chat.

 

Gráfico de rendimiento del modelo

Gráfico de rendimiento del modelo

Comparación de varios modelos de lenguaje en dos benchmarks: MT-Bench y AlpacaEval. Los modelos se evalúan según su tamaño, método de alineación (como dSFT para el ajuste fino supervisado destilado o dDPO para la optimización directa de preferencias destilada) y puntuaciones de rendimiento. Zephyr destaca con altas puntuaciones en ambos benchmarks, lo que indica su eficacia en la generación de respuestas alineadas.

MT-Bench y AlpacaEval

MT-Bench y AlpacaEval

Conclusión

En conclusión, el desarrollo de Zephyr-7B demuestra que la alineación y destilación de capacidades conversacionales de un modelo de lenguaje grande (LLM) hacia un modelo más pequeño se puede lograr sin depender de métodos basados en muestras. Al emplear la optimización directa de preferencias (DPO) con retroalimentación de IA, Zephyr-7B aprovecha la sólida base de Mistral-7B para establecer un nuevo referente para los modelos de chat de parámetros 7B, mostrando la capacidad de modelos más pequeños y de código abierto para comprender y responder de manera efectiva a la intención del usuario.

Sin embargo, este estudio no está exento de limitaciones. La dependencia de GPT-4 como evaluador de puntos de referencia introduce un sesgo hacia los modelos que se destilan de él, potencialmente favoreciendo respuestas más precisas. Además, la escalabilidad de este método a modelos más grandes, como LLAMA2-70B, y su impacto en los avances de rendimiento siguen siendo áreas que requieren más investigación. Estas limitaciones resaltan la necesidad de innovación continua y el desarrollo de métodos de evaluación imparciales en la comunidad de la IA.

Mirando más allá del estudio, es evidente que el potencial de que modelos más pequeños actúen al nivel de sus contrapartes más grandes puede democratizar la IA, permitiendo un uso más accesible y eficiente en diversas aplicaciones. El éxito de Zephyr-7B alienta una mayor exploración de modelos de código abierto, lo que puede acelerar los avances en la IA al fomentar la investigación y desarrollo colaborativo.

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Inteligencia Artificial

El Lado Oscuro de la IA - ¿Cómo pueden ayudar los creadores?!

No pasa un solo día en estos tiempos sin que nos enteremos de algo sorprendente que haya hecho una herramienta de IA....

Inteligencia Artificial

Barry Diller vs. IA Generativa Batalla Legal de Derechos de Autor

El magnate de los medios de comunicación Barry Diller y un grupo de destacados editores se están preparando para una ...

Inteligencia Artificial

Nvidia libera un chip de IA revolucionario para acelerar aplicaciones de IA generativa

En una era en la que la tecnología empuja constantemente los límites, Nvidia ha dejado una vez más su huella. La comp...