Vad är AI Red Teaming?
AI Red Teaming är metoden att testa AI-systemsäkerhet genom att simulera fientliga attacker. Red team försöker: kringgå modellens guardrails, tvinga generering av skadligt innehåll, extrahera träningsdata, manipulera utdata och hitta prompt injection-exploits.
Varför krävs det?
AI Act kräver robusthetstestning för högrisk AI-system (Art. 9). Även utan reglering är red teaming den mest effektiva metoden för att upptäcka sårbarheter innan produktionsimplementering.
AI red teaming-tekniker
Viktiga tekniker inkluderar: prompt injection, jailbreaking (kringgående av modellrestriktioner), dataextraktion (extrahering av träningsdatafragment), adversarial inputs (modifierade indata som orsakar felaktiga resultat) och model inversion (rekonstruktion av träningsdata från modellen).