Desbloqueando la alineación de intenciones en modelos de lenguaje más pequeños una guía completa del avance de Zephyr-7B con el ajuste fino supervisado y la retroalimentación de IA destilada’.
Desbloqueando la alineación de intenciones en modelos de lenguaje más pequeños una guía completa sobre el avance de Zephyr-7B con ajuste fino supervisado y retroalimentación de IA destilada
ZEPHYR-7B, un modelo de lenguaje más pequeño optimizado para alinear la intención del usuario a través de la optimización de preferencias directas destiladas (dDPO) utilizando datos de IA Feedback (AIF). Este enfoque mejora notablemente la alineación de intenciones sin la anotación humana, logrando un rendimiento superior en pruebas de chat para modelos de 7B parámetros. El método se basa en datos de preferencia de AIF, requiere un tiempo mínimo de entrenamiento y no necesita muestreo adicional durante el ajuste fino, estableciendo un nuevo estado del arte.
Los investigadores abordan la proliferación de LLMs como ChatGPT y sus derivados, como LLaMA, MPT, RedPajama-INCITE, Falcon y Llama 2. Se destacan los avances en el ajuste fino, el contexto, la generación aumentada por recuperación y la cuantificación. Se discuten técnicas de destilación para mejorar el rendimiento de modelos más pequeños, junto con herramientas y pruebas de referencia para la evaluación de modelos. El estudio evalúa el rendimiento de ZEPHYR-7B en MTBench, AlpacaEval y la clasificación de Open LLM de HuggingFace.
El estudio analiza la mejora de LLMs abiertos más pequeños utilizando el ajuste fino supervisado destilado (dSFT) para lograr mayor precisión y alineación de intenciones del usuario. Introduce dDPO para alinear LLMs sin anotación humana, basándose en AIF de modelos docentes. Los investigadores presentan ZEPHYR-7B, una versión alineada de Mistral-7B, lograda mediante dSFT, datos de AIF y dDPO, demostrando su rendimiento comparable a los modelos de chat de 70B parámetros alineados con el feedback humano. Se enfatiza la importancia de la alineación de intenciones en el desarrollo de LLM.
- ChatDev Agentes comunicativos para el desarrollo de software
- Cómo la IA está democratizando el proceso de escritura
- Aprovechando el poder de las GPUs con CuPy en Python
El enfoque delineado presenta un método para mejorar modelos de lenguaje, combinando dSFT para entrenar el modelo con datos de alta calidad y dDPO para refinarlo mediante la optimización de preferencias de respuesta. Se utiliza AIF de modelos docentes para mejorar la alineación con la intención del usuario. El proceso implica autorreforzamiento iterativo para generar un conjunto de datos de entrenamiento. El modelo resultante ZEPHYR-7B, logrado mediante dSFT, datos de AIF y dDPO, representa un modelo de chat de última generación con una mejor alineación de intenciones.
ZEPHYR-7B, un modelo de 7B parámetros, establece un nuevo estado del arte en pruebas de chat, superando a LLAMA2-CHAT-70B, el mejor modelo basado en RLHF de acceso abierto. Compite favorablemente con GPT-3.5-TURBO y CLAUDE 2 en AlpacaEval, pero se queda rezagado en tareas de matemáticas y codificación. Entre los modelos de 7B, el modelo dDPO destaca, superando a dSFT y Xwin-LM dPPO. Sin embargo, modelos más grandes superan a ZEPHYR en tareas intensivas en conocimiento. La evaluación en el Open LLM Leaderboard muestra la fortaleza de ZEPHYR en tareas de clasificación multiclasificación, confirmando sus capacidades de razonamiento y veracidad después del ajuste fino.
ZEPHYR-7B utiliza la optimización directa de preferencias para mejorar la alineación de intenciones. El estudio destaca posibles sesgos en el uso de GPT-4 como evaluador y alienta a explorar la capacidad de modelos abiertos más pequeños para la alineación con la intención del usuario. Se señala la omisión de consideraciones de seguridad, como salidas perjudiciales o consejos ilegales, lo que indica la necesidad de futuras investigaciones en esta área vital.
El estudio identifica varias áreas de investigación futura. Consideraciones de seguridad, abordando salidas perjudiciales y consejos ilegales, siguen sin explorarse. Se sugiere investigar el impacto de modelos docentes más grandes en la destilación para mejorar el rendimiento del modelo estudiantil. Se reconoce el uso de datos sintéticos en la destilación, aunque es un desafío, como un área de investigación valiosa. Se alienta a explorar más modelos abiertos más pequeños y su capacidad para alinearse con la intención del usuario para posibles avances. Se recomienda evaluar a ZEPHYR-7B en una gama más amplia de pruebas y tareas para evaluar sus capacidades de manera integral.
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- La amenaza existencial no es la inteligencia artificial, sino la falta de leyes de privacidad de datos
- Los investigadores de China presentaron un novedoso paradigma de compresión llamado Transferencia de Conocimiento basada en la Recuperación (RetriKT) revolucionando el despliegue de modelos de lenguaje pre-entrenados a gran escala en aplicaciones del
- Avanzando en las pruebas Shift-Left con IA generativa
- Invitación exclusiva ¡Únete a mi charla sobre los AI-Bots esta mañana!
- ¿Es posible demostrar la hipótesis de la simulación?
- 7 Algoritmos de Aprendizaje Automático que no Puedes Perder
- Investigadores de China proponen ALCUNA un innovador punto de referencia de inteligencia artificial para evaluar modelos de lenguaje a gran escala en la integración de nuevos conocimientos.