Što je trovanje podataka?
Trovanje podataka (data poisoning) je napad koji cilja fazu treniranja AI modela — zlonamjerni podaci se uvode u skup za treniranje kako bi se model naučio neželjenim ponašanjima. Za razliku od adverzarijskih napada koji ciljaju inferenciju, trovački napadi ugrožavaju sam temelj modela.
Vrste napada trovanjem
Backdoor napadi: model se ponaša normalno osim kada primi specifičan okidački obrazac — tada mijenja ponašanje. Ciljani trovački: degradira točnost modela za specifičnu podklasu (npr. određena osoba nije prepoznata). Netargeted trovački: opće degradira izvedbu modela.
Obrana od trovačkih napada
Strategije obrane: pažljivo kontrolirana prikupljanje podataka i provenancija, statističke anomalije detekcija u trenirnim skupovima, postupci provjere anotacije, certificirani defenzivni distilacijski pristupi i regularni modeli auditi koji provjeravaju ponašanje na poznatim podacima.