Mixture of Experts (MoE)

Kaj je Mixture of Experts?

Mixture of Experts je arhitekturna paradigma, v kateri je model sestavljen iz več specializiranih podmodalnih modelov (»strokovnjakov«) in omrežja »usmerjevalnika«, ki za vsak vhodni žeton selektivno aktivira majhno podmnožico strokovnjakov.

Prednosti arhitekture MoE

GPT-4, Mixtral, DeepSeek in Gemini używają različic MoE. Prednosti: zmogljivost: večja efektivna kapaciteta. učinkovitost: le 1–4 strokovnjaki aktivni na žeton. specializacija: strokovnjaki se spontano specializirajo.

Kompromisi

Izzivi: uravnoteženost obremenitve, zahteve po pomnilniku in kompleksnost distribucije. Za uporabnika model MoE deluje enako kot gost model.

Kaj je Mixture of Experts?

Prednosti arhitekture MoE

Kompromisi

Povezani pojmi