Què és l'AI Red Teaming?
L'AI Red Teaming és la pràctica de provar la seguretat dels sistemes d'IA simulant atacs adversaris. L'equip vermell intenta: evadir els guardrails del model, forçar la generació de contingut perjudicial, extreure dades d'entrenament, manipular sortides i trobar exploits de prompt injection.
Per què és obligatori?
La Llei d'IA exigeix proves de robustesa per a sistemes d'IA d'alt risc (Article 9). Fins i tot sense regulació, el red teaming és el mètode més efectiu per descobrir vulnerabilitats abans del desplegament en producció.
Tècniques d'AI red teaming
Les tècniques clau inclouen: prompt injection, jailbreaking (evasió de restriccions del model), extracció de dades (extreure fragments de dades d'entrenament), entrades adversàries (entrades modificades que provoquen resultats incorrectes) i inversió del model (reconstrucció de dades d'entrenament a partir del model).