Hacia la comprensión del modelo de mezclas de expertos
En búsqueda de la comprensión del modelo de mezclas de expertos
Nueva investigación revela lo que sucede bajo el capó cuando entrenamos modelos MoE
![Imagen creada por el autor con Midjourney](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*-_UvR2pODQHkdOAg.png)
Los modelos de Mezclas de Expertos (MoE) se han convertido rápidamente en una de las tecnologías más poderosas en las aplicaciones modernas de ML, permitiendo avances como el Switch Transformer y el GPT-4. ¡Realmente, apenas estamos empezando a ver su impacto completo!
Sin embargo, sorprendentemente se sabe muy poco sobre por qué exactamente MoE funciona en primer lugar. ¿Cuándo funciona MoE? ¿Por qué la compuerta no envía simplemente todos los ejemplos de entrenamiento al mismo experto? ¿Por qué el modelo no colapsa en un estado en el que todos los expertos sean idénticos? ¿Cómo se especializan exactamente los expertos y en qué? ¿Qué aprende exactamente la compuerta?
Afortunadamente, la investigación ha comenzado a arrojar algo de luz sobre estas preguntas. Veamos.
Modelos MoE: una introducción básica
![Fuente de la imagen: Adaptive Mixtures of Local Experts](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*czNnY09ypq7JcCOe.png)
Como recordatorio breve, MoE fue inventado en el artículo de 1991 titulado “Adaptive Mixtures of Local Experts”, coescrito por ni más ni menos que el padrino de la IA en persona, Geoffrey Hinton. La idea clave en MoE es modelar una salida y dado una entrada x combinando un número de “expertos” E, cuyo peso es controlado por una “red de compuertas” G,
- 7 Pasos para Ejecutar un Modelo de Lenguaje Pequeño en una CPU Local
- ¿Cómo puede la inteligencia artificial ayudar a reducir los costos de la atención médica?
- ¿Acabarán los modelos de lenguaje grandes con la programación?
donde la red de compuertas G se le asigna un modelo lineal simple,
donde W es una matriz aprendible que asigna ejemplos de entrenamiento a expertos. Al entrenar modelos MoE, por lo tanto, el objetivo de aprendizaje es doble:
- los expertos aprenderán a procesar la entrada que se les dé en la mejor salida posible (es decir, una predicción), y
- la compuerta aprenderá a “dirigir” los ejemplos de entrenamiento correctos a los expertos correctos, es decir, aprender la matriz de enrutamiento W.
Se ha demostrado que MoE es particularmente poderoso cuando ejecutamos la computación solo sobre el experto único con el valor de compuerta más grande, es decir, aproximamos y como
donde I es el índice del valor máximo de G. Esto lo llamamos “enrutamiento duro” o “compuertas dispersas”, y ha sido la técnica clave detrás de avances como el Switch…
We will continue to update Zepes; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Investigadores de NTU Singapur proponen OtterHD-8B un innovador modelo de IA multimodal evolucionado a partir de Fuyu-8B
- Generación mejorada por recuperación (RAG) De la teoría a la implementación de LangChain
- TSMixer El último modelo de pronóstico de Google
- Perspectivas de expertos sobre el desarrollo de marcos de IA seguros, confiables y confiables
- De la Ficción a la Realidad ChatGPT y el Sueño de Ciencia Ficción de una Verdadera Conversación de AI
- Microsoft Azure Potenciando el futuro de la computación en la nube
- ¿Puede la generación sintética de texto clínico revolucionar las tareas de IA clínica? Conozca a ClinGen un modelo de IA que implica la extracción de conocimientos clínicos y la generación de indicaciones de LLM informadas por contexto.