Que sont les attaques adversariales ?
Les attaques adversariales sont des techniques où des entrées soigneusement conçues amènent les modèles IA à produire des sorties incorrectes ou non désirées. En vision par ordinateur, des modifications de pixels minimales, invisibles pour les humains, peuvent entraîner une mauvaise classification d'une image. Pour les modèles de langage, les attaques par injection de prompt peuvent contourner les garde-fous de sécurité. Ces vulnérabilités sont particulièrement préoccupantes pour les applications critiques de sécurité.
Types d'attaques
Les attaques d'évasion manipulent les entrées au moment de l'inférence pour provoquer une mauvaise classification. Les attaques d'empoisonnement endommagent le modèle en injectant des données malveillantes dans le jeu d'entraînement. Les attaques par backdoor entraînent les modèles à produire des sorties prédéfinies lorsque certains déclencheurs sont activés. Les attaques d'inversion de modèle tentent d'extraire des informations sur les jeux d'entraînement.
Stratégies de défense
Les entreprises doivent réaliser des évaluations de robustesse adversariale dans le cadre de leur stratégie de sécurité IA. Les techniques comprennent : l'entraînement adversarial, la validation et l'assainissement des entrées, les méthodes d'ensemble, la surveillance des sorties pour détecter des schémas anormaux et des exercices de red teaming.