Hacia la comprensión del modelo de mezclas de expertos

En búsqueda de la comprensión del modelo de mezclas de expertos

Nueva investigación revela lo que sucede bajo el capó cuando entrenamos modelos MoE

Imagen creada por el autor con Midjourney

Los modelos de Mezclas de Expertos (MoE) se han convertido rápidamente en una de las tecnologías más poderosas en las aplicaciones modernas de ML, permitiendo avances como el Switch Transformer y el GPT-4. ¡Realmente, apenas estamos empezando a ver su impacto completo!

Sin embargo, sorprendentemente se sabe muy poco sobre por qué exactamente MoE funciona en primer lugar. ¿Cuándo funciona MoE? ¿Por qué la compuerta no envía simplemente todos los ejemplos de entrenamiento al mismo experto? ¿Por qué el modelo no colapsa en un estado en el que todos los expertos sean idénticos? ¿Cómo se especializan exactamente los expertos y en qué? ¿Qué aprende exactamente la compuerta?

Afortunadamente, la investigación ha comenzado a arrojar algo de luz sobre estas preguntas. Veamos.

Modelos MoE: una introducción básica

Fuente de la imagen: Adaptive Mixtures of Local Experts

Como recordatorio breve, MoE fue inventado en el artículo de 1991 titulado “Adaptive Mixtures of Local Experts”, coescrito por ni más ni menos que el padrino de la IA en persona, Geoffrey Hinton. La idea clave en MoE es modelar una salida y dado una entrada x combinando un número de “expertos” E, cuyo peso es controlado por una “red de compuertas” G,

donde la red de compuertas G se le asigna un modelo lineal simple,

donde W es una matriz aprendible que asigna ejemplos de entrenamiento a expertos. Al entrenar modelos MoE, por lo tanto, el objetivo de aprendizaje es doble:

  1. los expertos aprenderán a procesar la entrada que se les dé en la mejor salida posible (es decir, una predicción), y
  2. la compuerta aprenderá a “dirigir” los ejemplos de entrenamiento correctos a los expertos correctos, es decir, aprender la matriz de enrutamiento W.

Se ha demostrado que MoE es particularmente poderoso cuando ejecutamos la computación solo sobre el experto único con el valor de compuerta más grande, es decir, aproximamos y como

donde I es el índice del valor máximo de G. Esto lo llamamos “enrutamiento duro” o “compuertas dispersas”, y ha sido la técnica clave detrás de avances como el Switch…

We will continue to update Zepes; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

Investigación

Investigadores de MIT CSAIL discuten las fronteras del AI generativo.

Expertos se reúnen para examinar el código, lenguaje e imágenes generados por la inteligencia artificial, así como su...

Inteligencia Artificial

Este boletín de inteligencia artificial es todo lo que necesitas #57

En el mundo de la IA esta semana, las evaluaciones de rendimiento del modelo LLM fueron un tema de enfoque. En partic...

Investigación

El Gran Desafío Inaugural de J-WAFS tiene como objetivo desarrollar variantes de cultivos mejorados y llevarlos del laboratorio a la tierra.

Matt Shoulders liderará un equipo interdisciplinario para mejorar el RuBisCO, la enzima de la fotosíntesis considerad...

Inteligencia Artificial

La nueva función de diseño de Amazon Textract introduce eficiencias en tareas de procesamiento de documentos de inteligencia artificial generales y generativos.

Amazon Textract es un servicio de aprendizaje automático (ML) que extrae automáticamente texto, escritura a mano y da...

Inteligencia Artificial

Esta investigación de IA presenta métodos innovadores para adaptar modelos de lenguaje a la diseño de chips

ChipNeMo explora la utilización de LLMs para el diseño de chips industriales, empleando técnicas de adaptación de dom...