Hacia la comprensión del modelo de mezclas de expertos

En búsqueda de la comprensión del modelo de mezclas de expertos

Nueva investigación revela lo que sucede bajo el capó cuando entrenamos modelos MoE

Imagen creada por el autor con Midjourney

Los modelos de Mezclas de Expertos (MoE) se han convertido rápidamente en una de las tecnologías más poderosas en las aplicaciones modernas de ML, permitiendo avances como el Switch Transformer y el GPT-4. ¡Realmente, apenas estamos empezando a ver su impacto completo!

Sin embargo, sorprendentemente se sabe muy poco sobre por qué exactamente MoE funciona en primer lugar. ¿Cuándo funciona MoE? ¿Por qué la compuerta no envía simplemente todos los ejemplos de entrenamiento al mismo experto? ¿Por qué el modelo no colapsa en un estado en el que todos los expertos sean idénticos? ¿Cómo se especializan exactamente los expertos y en qué? ¿Qué aprende exactamente la compuerta?

Afortunadamente, la investigación ha comenzado a arrojar algo de luz sobre estas preguntas. Veamos.

Modelos MoE: una introducción básica

Fuente de la imagen: Adaptive Mixtures of Local Experts

Como recordatorio breve, MoE fue inventado en el artículo de 1991 titulado “Adaptive Mixtures of Local Experts”, coescrito por ni más ni menos que el padrino de la IA en persona, Geoffrey Hinton. La idea clave en MoE es modelar una salida y dado una entrada x combinando un número de “expertos” E, cuyo peso es controlado por una “red de compuertas” G,

donde la red de compuertas G se le asigna un modelo lineal simple,

donde W es una matriz aprendible que asigna ejemplos de entrenamiento a expertos. Al entrenar modelos MoE, por lo tanto, el objetivo de aprendizaje es doble:

los expertos aprenderán a procesar la entrada que se les dé en la mejor salida posible (es decir, una predicción), y
la compuerta aprenderá a “dirigir” los ejemplos de entrenamiento correctos a los expertos correctos, es decir, aprender la matriz de enrutamiento W.

Se ha demostrado que MoE es particularmente poderoso cuando ejecutamos la computación solo sobre el experto único con el valor de compuerta más grande, es decir, aproximamos y como

donde I es el índice del valor máximo de G. Esto lo llamamos “enrutamiento duro” o “compuertas dispersas”, y ha sido la técnica clave detrás de avances como el Switch…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Hacia la comprensión del modelo de mezclas de expertos

Nueva investigación revela lo que sucede bajo el capó cuando entrenamos modelos MoE

Modelos MoE: una introducción básica

Was this article helpful?

7 Pasos para Ejecutar un Modelo de Lenguaje Pequeño en una CPU Local

Mi segunda semana del desafío #30DayMapChallenge

Inteligencia Artificial

Expertos en tecnología comienzan a dudar de que las alucinaciones de ChatGPT, la IA, desaparezcan alguna vez

Investigadores de MIT CSAIL discuten las fronteras del AI generativo.

Este boletín de inteligencia artificial es todo lo que necesitas #57

El Gran Desafío Inaugural de J-WAFS tiene como objetivo desarrollar variantes de cultivos mejorados y llevarlos del laboratorio a la tierra.

La nueva función de diseño de Amazon Textract introduce eficiencias en tareas de procesamiento de documentos de inteligencia artificial generales y generativos.

Esta investigación de IA presenta métodos innovadores para adaptar modelos de lenguaje a la diseño de chips