Trovanje podataka (Data Poisoning)

Što je trovanje podataka?

Trovanje podataka (data poisoning) je napad koji cilja fazu treniranja AI modela — zlonamjerni podaci se uvode u skup za treniranje kako bi se model naučio neželjenim ponašanjima. Za razliku od adverzarijskih napada koji ciljaju inferenciju, trovački napadi ugrožavaju sam temelj modela.

Vrste napada trovanjem

Backdoor napadi: model se ponaša normalno osim kada primi specifičan okidački obrazac — tada mijenja ponašanje. Ciljani trovački: degradira točnost modela za specifičnu podklasu (npr. određena osoba nije prepoznata). Netargeted trovački: opće degradira izvedbu modela.

Obrana od trovačkih napada

Strategije obrane: pažljivo kontrolirana prikupljanje podataka i provenancija, statističke anomalije detekcija u trenirnim skupovima, postupci provjere anotacije, certificirani defenzivni distilacijski pristupi i regularni modeli auditi koji provjeravaju ponašanje na poznatim podacima.

Što je trovanje podataka?

Vrste napada trovanjem

Obrana od trovačkih napada

Povezani pojmovi

Povezane usluge i proizvodi