Co je Mixture of Experts?
Mixture of Experts (MoE) je architekturny vzor, kde model obsahuje viacero specializovanych podsieti – expertov – a pre kazdy vstup sa aktivuje len cast z nich. Rozhodnutie, ktori experti spracuju dany vstup, robi gating network (branova siet).
Tato architektura umoznuje dramaticky zvysit celkovy pocet parametrov modelu bez proporcionalneho narastu vypoctovych nakladov behem inferencie.
Vyhody MoE architektury
Klucovedvou vlastnostou je conditional computation – kazdy token aktivuje len malу cast parametrov (napr. 2 z 8 expertov). To umoznuje modelu mat miliardy parametrov, pricom inferencna rychlost zostava porovnatelna s mensimi hustymi modelmi.
Specializacia je dalsou vyhodou: rozni experti sa nauce specializovat na rozne typy vstupov alebo jazykovych konstrukci, co moze zlepsit kvalitu na specifickyсh ulohaach.
Prakticke pouzitie
Google GShard a Switch Transformer boli prve velke MoE modely. Novejsie modely ako Mistral Mixtral a predpokladane GPT-4 vyuzivaju MoE architektura. Hlavnou výzvou je load balancing – zabezpecenie, ze vsetci experti su rovnomerne vyuzivani a jeden expert sa nestane bottleneckom.