Kas yra modelio užkrėtimas?
Modelio užkrėtimas yra atakos vektorius, kai priešininkai keičia patį DI modelį – jo svorius, architektūrą ar mokymo procedūrą – siekdami įterpti kenksmingą elgseną. Skirtingai nuo duomenų užkrėtimo, kuris taikosi į mokymo duomenų rinkinį, modelio užkrėtimas tiesiogiai manipuliuoja išmoktais parametrais. Tai gali įvykti per pažeistas tiekimo grandines, kenksmingus dalyvius federuoto mokymosi aplinkose arba su užpakalinėmis durimis iš anksto apmokytus modelius, atsisiuntus iš viešų saugyklų. Gautas modelis veikia normaliai įprastinėmis sąlygomis, bet elgiasi neteisingai, kai suaktyvinamas konkretių įvesčių.
Atakos mechanizmai
Užpakalinių durų atakos įterpia paslėptus aktyviklius, kurie suaktyvina kenksmingą elgseną tik tada, kai įvestyje yra konkretus šablonas. Trojano atakos modifikuoja modelio svorius, kurdamos paslėptą funkcionalumą, apeinančį standartinį vertinimą. Federuoto mokymosi aplinkose kompromituotas dalyvis gali įterpti užkrėstus gradiento atnaujinimus, kurie sugadina bendrą modelį. Derinimo atakos išnaudoja perkėlimo mokymąsi, įterpiant pažidžiamumus į pamatinius modelius, kurie persiduoda tolesnėms programoms.
Apsaugos strategijos
Įmonės turėtų patikrinti visų iš anksto apmokytu modelių ir trečiųjų šalių komponentų vientisumą naudojant kriptografines kontrolines sumas ir patikimus šaltinius. Neuroninio valymo technikos gali aptikti ir pašalinti užpakalines duris iš apmokytų modelių. Tvirti agregavimo metodai federuotame mokymesi išfiltruoja anomalius dalyvių atnaujinimus. Reguliarus modelio auditas – testavimas su žinomais aktyviklių šablonais ir neuronų aktyvacijos pasiskirstymo analizė – padeda nustatyti kompromituotus modelius prieš diegimą. Patikrinto modelių registro su visišku kilmės atsekamumu palaikymas yra būtinas įmoninių DI saugumui.