Qu'est-ce que l'empoisonnement des données ?
L'empoisonnement des données est une attaque contre l'intégrité des systèmes IA dans laquelle des attaquants compromettent le processus d'entraînement en injectant des points de données malveillants dans le jeu d'entraînement. Contrairement aux attaques d'inférence qui ciblent des modèles terminés, les attaques d'empoisonnement ciblent le fondement du modèle — les données dont il apprend. Le modèle empoisonné résultant peut se comporter normalement pour la plupart des entrées mais est compromis pour des entrées spéciales.
Types d'attaques
Les attaques de backdoor embedding intègrent des déclencheurs cachés dans le modèle — un motif ou préfixe spécifique qui, lorsqu'il est présent, produit une sortie prédéfinie. Les attaques de dégradation des performances réduisent la précision globale du modèle sans déclencheurs spécifiques. Les attaques ciblées influencent les prédictions pour des classes ou individus spécifiques.
Mesures de défense
Pour se protéger contre l'empoisonnement des données : validez les sources de données et implémentez le suivi de la provenance. Utilisez des méthodes statistiques pour détecter les anomalies dans le jeu de données d'entraînement. Implémentez des procédures d'entraînement robustes. Surveillez le comportement du modèle à la recherche de schémas anormaux pouvant indiquer des backdoors.