Žinių distiliavimas (Knowledge Distillation)

Kaip veikia žinių distiliavimas

Žinių distiliavimas (Knowledge Distillation) yra modelio suspaudimo technika, kurioje didelis, gerai veikiantis modelis (mokytojas) perduoda savo išmoktas žinias mažesniam, efektyvesniam modeliui (mokiniui). Užuot mokęs mokinį vien tik neapdorotais duomenimis, jis mokosi iš mokytojo išvesties tikimybių pasiskirstymų, kurie turi turtingesnę informaciją apie ryšius tarp klasių ir koncepcijų nei paprastos etiketės.

Procesas veikia todėl, kad mokytojo «minkšti» rezultatai, pavyzdžiui, prognozuojant 80 % katė ir 15 % tigras vaizdui, koduoja vertingą struktūrinę informaciją apie panašumus tarp koncepcijų. Mokinio modelis, apmokomas šiais minkštais tikslais, dažnai pranoksta identišką architektūrą, apmokytą tik su kietomis etiketėmis, nes jis naudojasi mokytojo niuansuotu supratimu.

Distiliavimo strategijos

Šiuolaikinis distiliavimas pranoksta paprastą išvesties pasiskirstymų atitikimą. Požymiais pagrįstas distiliavimas suderina tarpinius atvaizdus tarp mokytojo ir mokinio. Ryšiais pagrįstas distiliavimas išsaugo ryšius tarp duomenų taškų. Kalbiniams modeliams distiliavimas dažnai apima sintetinių mokymo duomenų generavimą iš mokytojo, leidžiant mokiniui mokytis iš įvairių, aukštos kokybės pavyzdžių.

Nauda įmonėms

Žinių distiliavimas leidžia organizacijoms diegti dirbtinio intelekto galimybes su dramatiškai mažesniais skaičiavimo kaštais. Distiliuotas modelis gali aptarnauti tūkstančius užklausų per sekundę su kukliais ištekliais, o mokytojo modelis gali apdoroti tik keliasdešimt. Tai daro distiliavimą būtinu vėlinimui jautrioms programoms, tokioms kaip realaus laiko klientų aptarnavimas, kraštinis diegimas ir mobiliosios programos, kur pilno dydžio modelių vykdymas yra nepraktiškas.

Kaip veikia žinių distiliavimas

Distiliavimo strategijos

Nauda įmonėms

Susiję terminai