Empoisonnement de Modèle

Qu'est-ce que l'empoisonnement de modèle ?

L'empoisonnement de modèle (Model Poisoning) est une attaque contre les systèmes d'IA dans laquelle un attaquant injecte des données malveillantes ou manipulées dans le processus d'entraînement. L'objectif est d'influencer le modèle pour qu'il produise des sorties incorrectes ou nuisibles pour certaines entrées, tout en paraissant correct pour les entrées normales.

Types d'attaques

Les attaques par porte dérobée (backdoor) cachent des déclencheurs dans le modèle qui activent des comportements indésirables pour certaines entrées. L'empoisonnement des étiquettes manipule les étiquettes d'entraînement pour déplacer les frontières de décision entre classes. L'empoisonnement des données introduit des exemples soigneusement construits qui orientent le modèle dans une direction particulière.

Mesures de protection

Les entreprises se protègent par une validation et un filtrage soigneux des données, la surveillance des sources de données d'entraînement, des tests de robustesse adversariale et la détection d'anomalies dans les données d'entraînement. Il est particulièrement important de sécuriser les pipelines de données et de vérifier les jeux de données tiers.

Qu'est-ce que l'empoisonnement de modèle ?

Types d'attaques

Mesures de protection

Termes associés

Services et produits associés