A modellmérgezés megértése
A modellmérgezés azokat a támadásokat jelöli, amelyek megcélozzák magát az ML-modell betanítási folyamatát, a backdoor injektálástól a teljesítmény degradációig terjednek. Az adatmérgezéstől eltérően, amely a betanítási adatokat érinti, a modellmérgezés közvetlenül manipulálja a modell paramétereit vagy a betanítási algoritmust.
Mérgezési vektortípusok
A Backdoor támadások rejtett funkcionalitást injektálnak, amelyet egy speciális trigger aktivál. Amikor a trigger (például egy speciális karaktersorozat) megjelenik, a modell egy előre definiált, szándékosan helytelen kimenetet produkál. A Gradient-based támadások a föderált tanulási beállításokban lehetségesek, ahol a rosszindulatú résztvevők manipulált gradiens frissítéseket küldhetnek.
Védekező megközelítések
Az integritásellenőrzések és aláírások az elfogadott modellverziókhoz biztosítják, hogy a modellek nem lettek megváltoztatva. A biztonságos aggregációs protokollok a föderált tanulásban megvédik az összesítési folyamatot. A betanítási infrastruktúrájú hozzáférés-ellenőrzés biztosítja az illetéktelen módosítások megakadályozását.