Mixture of Experts (MoE)

X'Inhu Mixture of Experts?

Mixture of Experts (MoE) hija arkitettura ta' netwerk newrali fejn il-mudell jikkonsisti minn diversi netwerks "esperti" speċjalizzati flimkien ma' mekkaniżmu ta' gating li jiddetermina liema esperti jipproċessaw kull input. Minflok jattiva l-parametri kollha għal kull token, MoE b'mod selettiv jiddirieġi kull input lejn l-aktar esperti rilevanti — tipikament 2 minn 8 jew aktar. Dan jippermetti mudelli b'numru totali enormi ta' parametri filwaqt li jżommu l-ispiża komputazzjonali tal-inferenza mmaniġġabbli.

GPT-4, Mixtral u mudelli kbar oħra jużaw arkitetturi MoE. Mixtral 8x7B, per eżempju, għandu parametri ta' 47 biljun b'mod totali iżda jattiva biss madwar 13-il biljun għal kull token, u jikseb prestazzjoni komparabbli ma' mudelli densi ħafna akbar filwaqt li jkun aktar effiċjenti.

Kif Jaħdem MoE

Il-komponent ewlieni huwa r-router (jew gating network), li jitgħallem liema esperti huma l-aktar adattati għal tipi differenti ta' inputs. Matul-forward pass, ir-router jassenja piżijiet lill-esperti għal kull token, u biss l-aktar top-K esperti (tipikament K=2) jiġu kkalkulati. Dan l-isparse activation huwa dak li jagħti lil MoE l-effiċjenza tiegħu — il-mudell għandu kapaċità enormi iżda juża biss frazzjoni tagħha għal kwalunkwe input partikolari.

Implikazzjonijiet għall-Intrapriżi

MoE għandha implikazzjonijiet sinifikanti għall-iskjerament tal-AI fl-intrapriżi. Il-mudelli jirrikjedu aktar memorja (il-parametri kollha jridu jiġu pproċessati) iżda inqas komputazzjoni għal kull talba. Dan jaffettwa l-għażliet tal-hardware — MoE jiffavorixxi sistemi b'memorja abbundanti fuq komputazzjoni pura. L-implimentazzjonijiet għandhom jikkunsidraw ir-rekwiżiti tal-memorja, l-ispiża tal-hardware u t-trade-offs bejn il-latenza u t-throughput meta jevalwaw mudelli MoE vs mudelli densi għall-każijiet ta' użu tagħhom.

X'Inhu Mixture of Experts?

Kif Jaħdem MoE

Implikazzjonijiet għall-Intrapriżi

Termini relatati