Retour au glossaire Sécurité

Empoisonnement de Modèle

Attaques adversariales consistant à injecter des données malveillantes dans le processus d'entraînement pour manipuler le comportement du modèle.

Qu'est-ce que l'empoisonnement de modèle ?

L'empoisonnement de modèle (Model Poisoning) est une attaque contre les systèmes d'IA dans laquelle un attaquant injecte des données malveillantes ou manipulées dans le processus d'entraînement. L'objectif est d'influencer le modèle pour qu'il produise des sorties incorrectes ou nuisibles pour certaines entrées, tout en paraissant correct pour les entrées normales.

Types d'attaques

Les attaques par porte dérobée (backdoor) cachent des déclencheurs dans le modèle qui activent des comportements indésirables pour certaines entrées. L'empoisonnement des étiquettes manipule les étiquettes d'entraînement pour déplacer les frontières de décision entre classes. L'empoisonnement des données introduit des exemples soigneusement construits qui orientent le modèle dans une direction particulière.

Mesures de protection

Les entreprises se protègent par une validation et un filtrage soigneux des données, la surveillance des sources de données d'entraînement, des tests de robustesse adversariale et la détection d'anomalies dans les données d'entraînement. Il est particulièrement important de sécuriser les pipelines de données et de vérifier les jeux de données tiers.

Services et produits associés