Kaj so adversarijski napadi?
Adversarijski napadi so tehnike, s katerimi se modeli UI namerno zavedejo z dodajanjem skrbno zasnovanih perturbacij vhodnim podatkom, ki so za ljudi nevidne ali neznatne, a povzročajo dramatično napačne klasifikacije.
Vrste napadov
Napadi bele škatle: napadalec ima popoln dostop do arhitekture modela. Napadi črne škatle: napadalec lahko samo poizveduje model. Fizični napadi: perturbacije, aplicirane na fizične objekte.
Obramba in ublažitev
Strategije obrambe vključujejo adversarično usposabljanje, certifikacijsko robustnost, predprocesiranje vhodov in ensemble modelov.