X'Inhu Mixture of Experts?
Mixture of Experts (MoE) hija arkitettura ta' netwerk newrali fejn il-mudell jikkonsisti minn diversi netwerks "esperti" speċjalizzati flimkien ma' mekkaniżmu ta' gating li jiddetermina liema esperti jipproċessaw kull input. Minflok jattiva l-parametri kollha għal kull token, MoE b'mod selettiv jiddirieġi kull input lejn l-aktar esperti rilevanti — tipikament 2 minn 8 jew aktar. Dan jippermetti mudelli b'numru totali enormi ta' parametri filwaqt li jżommu l-ispiża komputazzjonali tal-inferenza mmaniġġabbli.
GPT-4, Mixtral u mudelli kbar oħra jużaw arkitetturi MoE. Mixtral 8x7B, per eżempju, għandu parametri ta' 47 biljun b'mod totali iżda jattiva biss madwar 13-il biljun għal kull token, u jikseb prestazzjoni komparabbli ma' mudelli densi ħafna akbar filwaqt li jkun aktar effiċjenti.
Kif Jaħdem MoE
Il-komponent ewlieni huwa r-router (jew gating network), li jitgħallem liema esperti huma l-aktar adattati għal tipi differenti ta' inputs. Matul-forward pass, ir-router jassenja piżijiet lill-esperti għal kull token, u biss l-aktar top-K esperti (tipikament K=2) jiġu kkalkulati. Dan l-isparse activation huwa dak li jagħti lil MoE l-effiċjenza tiegħu — il-mudell għandu kapaċità enormi iżda juża biss frazzjoni tagħha għal kwalunkwe input partikolari.
Implikazzjonijiet għall-Intrapriżi
MoE għandha implikazzjonijiet sinifikanti għall-iskjerament tal-AI fl-intrapriżi. Il-mudelli jirrikjedu aktar memorja (il-parametri kollha jridu jiġu pproċessati) iżda inqas komputazzjoni għal kull talba. Dan jaffettwa l-għażliet tal-hardware — MoE jiffavorixxi sistemi b'memorja abbundanti fuq komputazzjoni pura. L-implimentazzjonijiet għandhom jikkunsidraw ir-rekwiżiti tal-memorja, l-ispiża tal-hardware u t-trade-offs bejn il-latenza u t-throughput meta jevalwaw mudelli MoE vs mudelli densi għall-każijiet ta' użu tagħhom.