Modellmérgezés (Model Poisoning)

A modellmérgezés megértése

A modellmérgezés azokat a támadásokat jelöli, amelyek megcélozzák magát az ML-modell betanítási folyamatát, a backdoor injektálástól a teljesítmény degradációig terjednek. Az adatmérgezéstől eltérően, amely a betanítási adatokat érinti, a modellmérgezés közvetlenül manipulálja a modell paramétereit vagy a betanítási algoritmust.

Mérgezési vektortípusok

A Backdoor támadások rejtett funkcionalitást injektálnak, amelyet egy speciális trigger aktivál. Amikor a trigger (például egy speciális karaktersorozat) megjelenik, a modell egy előre definiált, szándékosan helytelen kimenetet produkál. A Gradient-based támadások a föderált tanulási beállításokban lehetségesek, ahol a rosszindulatú résztvevők manipulált gradiens frissítéseket küldhetnek.

Védekező megközelítések

Az integritásellenőrzések és aláírások az elfogadott modellverziókhoz biztosítják, hogy a modellek nem lettek megváltoztatva. A biztonságos aggregációs protokollok a föderált tanulásban megvédik az összesítési folyamatot. A betanítási infrastruktúrájú hozzáférés-ellenőrzés biztosítja az illetéktelen módosítások megakadályozását.

A modellmérgezés megértése

Mérgezési vektortípusok

Védekező megközelítések

Kapcsolódó fogalmak

Kapcsolódó szolgáltatások és termékek