Što su adverzarijski napadi?
Adverzarijski napadi su tehnike kojima se AI modeli namjerno prevare dodavanjem pažljivo osmišljenih perturbacija ulaznim podacima koje su nevidljive ili neznatne za ljude, ali uzrokuju dramatično pogrešne klasifikacije ili izlaze modela. Slika psa s minimalnom šumom postaje povjerljivo klasificirana kao mačka. Malo izmijenjen znak stop može se nevidljivo označiti znakovima 'pređi cestu'.
Vrste napada
White-box napadi: napadač ima pun pristup arhitekturi i parametrima modela. Black-box napadi: napadač može samo upitati model — realističniji scenarij. Fizički napadi: perturbacije primijenjene na fizičke objekte (primjer znakovnih ploča). Napadi transferom: napadi osmišljeni za jedan model koji prenose na drugi.
Obrana i ublažavanje
Strategije obrane uključuju: adverzarijsko treniranje (uključivanje adverzarijskih primjera u treniranje), certifikacijska robustnost (matematički dokazati otpornost), ulaznu preprocesiranje i provjeru, ansambli modela i red teaming. Niti jedna obrana nije potpuna — dubinska obrana kroz slojeve je ključna.