Vissza a szójegyzékhez Biztonság

Modellmérgezés (Model Poisoning)

AI biztonsági fenyegetés, amelyben a támadók a betanítás folyamatát befolyásolják a modell rosszindulatú viselkedéséhez vezető hátsó kapuk beültetése vagy teljesítményromlás okozása céljából.

A modellmérgezés megértése

A modellmérgezés azokat a támadásokat jelöli, amelyek megcélozzák magát az ML-modell betanítási folyamatát, a backdoor injektálástól a teljesítmény degradációig terjednek. Az adatmérgezéstől eltérően, amely a betanítási adatokat érinti, a modellmérgezés közvetlenül manipulálja a modell paramétereit vagy a betanítási algoritmust.

Mérgezési vektortípusok

A Backdoor támadások rejtett funkcionalitást injektálnak, amelyet egy speciális trigger aktivál. Amikor a trigger (például egy speciális karaktersorozat) megjelenik, a modell egy előre definiált, szándékosan helytelen kimenetet produkál. A Gradient-based támadások a föderált tanulási beállításokban lehetségesek, ahol a rosszindulatú résztvevők manipulált gradiens frissítéseket küldhetnek.

Védekező megközelítések

Az integritásellenőrzések és aláírások az elfogadott modellverziókhoz biztosítják, hogy a modellek nem lettek megváltoztatva. A biztonságos aggregációs protokollok a föderált tanulásban megvédik az összesítési folyamatot. A betanítási infrastruktúrájú hozzáférés-ellenőrzés biztosítja az illetéktelen módosítások megakadályozását.

Kapcsolódó szolgáltatások és termékek