Cos'è l'avvelenamento del modello?
L'avvelenamento del modello (Model Poisoning) è un attacco contro i sistemi di IA in cui un attaccante introduce dati dannosi o manipolati nel processo di addestramento. L'obiettivo è influenzare il modello affinché produca output errati o dannosi per determinati input, apparendo corretto per gli input normali.
Tipi di attacco
Gli attacchi backdoor nascondono trigger nel modello che attivano comportamenti indesiderati per certi input. L'avvelenamento delle etichette manipola le etichette di addestramento per spostare i confini decisionali tra classi. L'avvelenamento dei dati introduce esempi costruiti con cura che orientano il modello in una direzione specifica.
Misure di protezione
Le aziende si proteggono attraverso un'attenta validazione e filtraggio dei dati, monitoraggio delle fonti di dati di addestramento, test di robustezza avversariale e rilevamento di anomalie nei dati di addestramento. È particolarmente importante proteggere le pipeline di dati e verificare i dataset di terze parti.