Kas yra Mixture of Experts?
Mixture of Experts (MoE) yra neuroninio tinklo architektūra, kuri skaido modelį į kelis specializuotus potinklius, vadinamus ekspertais, kartu su vartų mechanizmu, kuris nukreipia kiekvieną įvestį tik į šių ekspertų pošaipį. Šis dizainas leidžia modeliams turėti milžinišką bendrą parametrų skaičių, tačiau bet kuriai įvesčiai aktyvinti tik dalį jų, drastiškai sumažinant skaičiavimo kaštus išvados metu.
Šiuolaikiniuose MoE kalbos modeliuose kiekvienas Transformer sluoksnis turi kelis perdavimo pirmyn ekspertų tinklus. Išmoktas maršrutizatorius išnagrinėja kiekvieną žetoną ir parenka geriausiusis k ekspertus (paprastai 2 iš 8 ar daugiau) jam apdoroti. Parinktų ekspertų išvesties yra sveriamos ir jungiamos. Šis retas aktyvavimas reiškia, kad modelis su šimtais milijardų visų parametrų gali naudoti tik dalį jų vienam pirmyn perdavimui.
MoE architektūros pranašumai
MoE modeliai pasiekia našumą, palyginamą su tankiais modeliais, kurių aktyvių parametrų skaičius yra daug kartų didesnis. Jie mokosi grečiau, nes kiekvienas ekspertas gali specializuotis skirtingo tipo žiniose ar užduotyse. Architektūra taip pat efektyviai mastuojasi, nes ekspertų pridėjimas didina modelio talpumą be proporcingo išvados kainos didėjimo.
Diegimo aspektai
Nors MoE modeliai yra skaičiavimo požiūriu efektyvūs išvados metu, jie reikalauja daugiau atminties, nes visi ekspertų svoriai turi būti įkelti, nors tik dalis jų yra aktyvūs. Įmoninių diegimai turi subalansuoti našumo naudą su atminties reikalavimais. MoE architektūros yra ypač vertingos aptarnaujant įvairias darbo krūvius, nes skirtingi ekspertai natualiai specializuojasi skirtingose srityse.