Hvad er AI Red Teaming?
AI Red Teaming er praksis med at teste AI-systemsikkerhed ved at simulere fjendtlige angreb. Red team forsøger at: omgå modellens guardrails, tvinge generering af skadeligt indhold, udtrække træningsdata, manipulere output og finde prompt injection-udnyttelser.
Hvorfor er det påkrævet?
AI Act kræver robusthedstest for højrisiko AI-systemer (Art. 9). Selv uden regulering er red teaming den mest effektive metode til at opdage sårbarheder før produktionsimplementering.
AI red teaming-teknikker
Vigtige teknikker inkluderer: prompt injection, jailbreaking (omgåelse af modelrestriktioner), dataudtræk (udtrækning af træningsdatafragmenter), adversarial inputs (modificerede input, der forårsager forkerte resultater) og model inversion (rekonstruktion af træningsdata fra modellen).