Terug naar woordenlijst Beveiliging

AI Red Teaming

Testen van AI-systeembeveiliging door gesimuleerde aanvallen — kwetsbaarheden vinden, guardrails omzeilen en methoden van modelmanipulatie ontdekken.

Wat is AI Red Teaming?

AI Red Teaming is de praktijk van het testen van AI-systeembeveiliging door vijandige aanvallen te simuleren. Het red team probeert: modelguardrails te omzeilen, generatie van schadelijke inhoud af te dwingen, trainingsdata te extraheren, uitvoer te manipuleren en prompt injection-exploits te vinden.

Waarom is het verplicht?

De AI Act schrijft robuustheidstests voor hoog-risico AI-systemen voor (Art. 9). Zelfs zonder regelgeving is red teaming de meest effectieve methode om kwetsbaarheden te ontdekken vóór productie-implementatie.

AI red teaming-technieken

Belangrijke technieken zijn: prompt injection, jailbreaking (omzeilen van modelbeperkingen), data-extractie (fragmenten van trainingsdata extraheren), adversarial inputs (gewijzigde invoer die onjuiste resultaten veroorzaakt) en model inversion (trainingsdata reconstrueren vanuit het model).

Gerelateerde diensten en producten