Înțelegerea otrăvirii datelor
Otrăvirea datelor este o formă de amenințare la securitatea AI în care atacatorii inserează exemple special concepute în datele de antrenare pentru a distorsiona procesul de învățare al modelului. Spre deosebire de atacurile adversariale la timp de inferență care vizează modelele antrenate, otrăvirea datelor încearcă să compromită modelul în fazele de colectare și preprocesare a datelor.
Tipuri de atacuri de otrăvire
Otrăvirea prin erori inserează date perturbatoare intenționat eronate. Otrăvirea cu ușă din spate (backdoor) implantează declanșatoare ascunse. Otrăvirea țintită urmărește schimbarea predicției modelului pentru intrări specifice.
Măsuri defensive
Validarea surselor de date și verificarea provenienței reduce riscul achiziției compromise de date. Detecția anomaliilor poate identifica exemple de antrenare statistic anormale. Tehnicile robuste de antrenare rezistente la outlieri pot atenua impactul otrăvirii datelor.