Mixture of Experts (MoE)

Înțelegerea arhitecturii MoE

Mixture of Experts (MoE) este o arhitectură de rețea neurală în care rețeaua constă dintr-o colecție de sub-modele expert mai mari, și un mecanism de poartă (gating) decide ce expert(i) este aplicat fiecărei intrări. În loc să activeze toți parametrii pe fiecare intrare, modelele MoE activează rar (sparse activation) — efectuând doar calcule care necesită participarea experților relevanți.

Avantajele MoE

Activarea rară permite dimensiuni foarte mari ale modelului total fără a crește proporțional costul computațional pe pas de inferență. GPT-4 și alte modele de frontieră utilizează probabil arhitecturi MoE. Specializarea înseamnă că diferiți experți se specializează în diferite tipuri de tipare de intrare.

Provocări și considerații

Echilibrarea încărcăturii este critică în modelele MoE: dacă gating-ul selectează mereu aceiași experți, modelul devine efectiv un singur model dens. Dispersarea experților introduce complexitate de stocare și memorie în inferență.

Înțelegerea arhitecturii MoE

Avantajele MoE

Provocări și considerații

Termeni înrudiți