Što je Mixture of Experts?
Mixture of Experts (MoE) je arhitekturna paradigma u kojoj se model sastoji od više specijaliziranih podmodela ('stručnjaka') i 'router' mreže koja za svaki ulazni token selektivno aktivira mali podskup stručnjaka. Rezultat: model može imati trilijun+ parametara ali aktivira samo frakciju za svaki zahtjev, kombinirajući visok kapacitet s efikasnom inferencijom.
Prednosti MoE arhitekture
GPT-4, Mixtral, DeepSeek i Gemini koriste varijante MoE. Prednosti: kapacitet: veća efektivna kapacitivnost nego dense model iste veličine. Efikasnost: samo 1-4 stručnjaka aktivno po tokenu. Specijalizacija: stručnjaci spontano specializiraju za jezike, domene ili zadatke.
Kompromisi
Izazovi: load balancing (sprječava preveliku upotrebu nekolicine stručnjaka), memorijski zahtjevi (svi stručnjaci trebaju stati u memoriju), kompleksnost distribucije i potencijalna nestabilnost treniranja. Korisniku, MoE model funkcionira isto kao dense model — kompleksnost je unutarnja.