Wat is AI Red Teaming?
AI Red Teaming is de praktijk van het testen van AI-systeembeveiliging door vijandige aanvallen te simuleren. Het red team probeert: modelguardrails te omzeilen, generatie van schadelijke inhoud af te dwingen, trainingsdata te extraheren, uitvoer te manipuleren en prompt injection-exploits te vinden.
Waarom is het verplicht?
De AI Act schrijft robuustheidstests voor hoog-risico AI-systemen voor (Art. 9). Zelfs zonder regelgeving is red teaming de meest effectieve methode om kwetsbaarheden te ontdekken vóór productie-implementatie.
AI red teaming-technieken
Belangrijke technieken zijn: prompt injection, jailbreaking (omzeilen van modelbeperkingen), data-extractie (fragmenten van trainingsdata extraheren), adversarial inputs (gewijzigde invoer die onjuiste resultaten veroorzaakt) en model inversion (trainingsdata reconstrueren vanuit het model).