Как работи MoE
Вместо активиране на всички параметри за всеки вход, MoE използва маршрутизираща мрежа за избор на малко подмножество от експерти за конкретния вход, обикновено 2-8 от общо 8-64. Въпреки по-голям брой параметри, изчисленията за всеки вход са подобни на много по-малък модел.
Предимства
MoE осигурява голям ефективен размер на модела - много параметри за съхранение на знания - при приемливи изчислителни разходи. Успешни модели като Mixtral на Mistral и Google използват MoE.
Предизвикателства
Предизвикателствата включват: балансиране на натоварването (гарантиране, че експертите се използват равномерно), комуникационни разходи (в контекст на разпределено внедряване) и предизвикателства при отстраняване на грешки (разбиране защо маршрутизаторът е избрал конкретни експерти).