Nazaj na slovar Varnost

Adversarijski napadi na UI

Zlonamerne manipulacije vhodnih podatkov, zasnovane za zavajanje modelov UI in povzročanje napačnih rezultatov.

Kaj so adversarijski napadi?

Adversarijski napadi so tehnike, s katerimi se modeli UI namerno zavedejo z dodajanjem skrbno zasnovanih perturbacij vhodnim podatkom, ki so za ljudi nevidne ali neznatne, a povzročajo dramatično napačne klasifikacije.

Vrste napadov

Napadi bele škatle: napadalec ima popoln dostop do arhitekture modela. Napadi črne škatle: napadalec lahko samo poizveduje model. Fizični napadi: perturbacije, aplicirane na fizične objekte.

Obramba in ublažitev

Strategije obrambe vključujejo adversarično usposabljanje, certifikacijsko robustnost, predprocesiranje vhodov in ensemble modelov.

Povezane storitve in izdelki