Mixture of Experts (MoE)

O que é o Mixture of Experts?

O Mixture of Experts (MoE) é uma arquitetura de rede neural onde o modelo consiste em múltiplas redes de feedforward especializadas (especialistas) em vez de um único bloco feedforward. Uma rede de roteamento aprende a direcionar cada token de input para o subconjunto mais adequado de especialistas — normalmente apenas 2-8 especialistas de um pool de dezenas ou centenas são ativados para qualquer dado input. Isto cria um modelo que tem uma capacidade paramétrica muito maior do que ativa para qualquer token único.

Porque MoE Importa

O MoE permite que os modelos aumentem a sua capacidade total (número de parâmetros) sem aumentar proporcionalmente o custo computacional. Um modelo MoE com 100 especialistas pode ter a capacidade paramétrica de um modelo denso 100x maior mas o custo de inferência de um modelo muito menor, uma vez que apenas uma pequena fração dos especialistas é ativada por token. Esta eficiência torna o MoE atrativo para treinar modelos de fundação de muito grande escala.

Implicações Práticas

Os modelos MoE de ponta como o Mixtral demonstram que a arquitetura MoE pode entregar desempenho comparável ou superior aos modelos densos com menor custo de inferência. Para implantação empresarial, os modelos MoE apresentam desafios únicos: os requisitos de memória para carregar todos os especialistas podem ser substanciais mesmo que apenas alguns sejam ativados por inferência, e o balanceamento de carga entre especialistas requer atenção cuidadosa para evitar a subutilização de alguns especialistas enquanto outros ficam sobrecarregados.

O que é o Mixture of Experts?

Porque MoE Importa

Implicações Práticas

Termos relacionados