AI Red Teaming

Què és l'AI Red Teaming?

L'AI Red Teaming és la pràctica de provar la seguretat dels sistemes d'IA simulant atacs adversaris. L'equip vermell intenta: evadir els guardrails del model, forçar la generació de contingut perjudicial, extreure dades d'entrenament, manipular sortides i trobar exploits de prompt injection.

Per què és obligatori?

La Llei d'IA exigeix proves de robustesa per a sistemes d'IA d'alt risc (Article 9). Fins i tot sense regulació, el red teaming és el mètode més efectiu per descobrir vulnerabilitats abans del desplegament en producció.

Tècniques d'AI red teaming

Les tècniques clau inclouen: prompt injection, jailbreaking (evasió de restriccions del model), extracció de dades (extreure fragments de dades d'entrenament), entrades adversàries (entrades modificades que provoquen resultats incorrectes) i inversió del model (reconstrucció de dades d'entrenament a partir del model).

Què és l'AI Red Teaming?

Per què és obligatori?

Tècniques d'AI red teaming

Termes relacionats

Serveis i productes relacionats