Qu'est-ce que l'AI Red Teaming ?
L'AI Red Teaming est la pratique consistant à tester la sécurité des systèmes IA en simulant des attaques adverses. L'équipe rouge tente de : contourner les guardrails du modèle, forcer la génération de contenu nuisible, extraire des données d'entraînement, manipuler les sorties et trouver des exploits de prompt injection.
Pourquoi est-ce requis ?
L'AI Act impose des tests de robustesse pour les systèmes IA à haut risque (Art. 9). Même sans réglementation, le red teaming est la méthode la plus efficace pour découvrir les vulnérabilités avant le déploiement en production.
Techniques d'AI Red Teaming
Les techniques clés incluent : prompt injection, jailbreaking (contournement des restrictions du modèle), extraction de données (extraction de fragments de données d'entraînement), entrées adverses (entrées modifiées causant des résultats incorrects) et model inversion (reconstruction des données d'entraînement à partir du modèle).