Attaques adversariales contre l'IA

Que sont les attaques adversariales ?

Les attaques adversariales sont des techniques où des entrées soigneusement conçues amènent les modèles IA à produire des sorties incorrectes ou non désirées. En vision par ordinateur, des modifications de pixels minimales, invisibles pour les humains, peuvent entraîner une mauvaise classification d'une image. Pour les modèles de langage, les attaques par injection de prompt peuvent contourner les garde-fous de sécurité. Ces vulnérabilités sont particulièrement préoccupantes pour les applications critiques de sécurité.

Types d'attaques

Les attaques d'évasion manipulent les entrées au moment de l'inférence pour provoquer une mauvaise classification. Les attaques d'empoisonnement endommagent le modèle en injectant des données malveillantes dans le jeu d'entraînement. Les attaques par backdoor entraînent les modèles à produire des sorties prédéfinies lorsque certains déclencheurs sont activés. Les attaques d'inversion de modèle tentent d'extraire des informations sur les jeux d'entraînement.

Stratégies de défense

Les entreprises doivent réaliser des évaluations de robustesse adversariale dans le cadre de leur stratégie de sécurité IA. Les techniques comprennent : l'entraînement adversarial, la validation et l'assainissement des entrées, les méthodes d'ensemble, la surveillance des sorties pour détecter des schémas anormaux et des exercices de red teaming.

Que sont les attaques adversariales ?

Types d'attaques

Stratégies de défense

Termes associés

Services et produits associés