Torna al glossario Sicurezza

Avvelenamento del Modello

Attacchi avversariali in cui vengono introdotti dati dannosi nel processo di addestramento per manipolare il comportamento del modello.

Cos'è l'avvelenamento del modello?

L'avvelenamento del modello (Model Poisoning) è un attacco contro i sistemi di IA in cui un attaccante introduce dati dannosi o manipolati nel processo di addestramento. L'obiettivo è influenzare il modello affinché produca output errati o dannosi per determinati input, apparendo corretto per gli input normali.

Tipi di attacco

Gli attacchi backdoor nascondono trigger nel modello che attivano comportamenti indesiderati per certi input. L'avvelenamento delle etichette manipola le etichette di addestramento per spostare i confini decisionali tra classi. L'avvelenamento dei dati introduce esempi costruiti con cura che orientano il modello in una direzione specifica.

Misure di protezione

Le aziende si proteggono attraverso un'attenta validazione e filtraggio dei dati, monitoraggio delle fonti di dati di addestramento, test di robustezza avversariale e rilevamento di anomalie nei dati di addestramento. È particolarmente importante proteggere le pipeline di dati e verificare i dataset di terze parti.

Servizi e prodotti correlati