Tillbaka till ordlistan Säkerhet

AI Red Teaming

Testning av AI-systemsäkerhet genom simulerade attacker — hitta sårbarheter, kringgå guardrails och upptäcka metoder för modellmanipulation.

Vad är AI Red Teaming?

AI Red Teaming är metoden att testa AI-systemsäkerhet genom att simulera fientliga attacker. Red team försöker: kringgå modellens guardrails, tvinga generering av skadligt innehåll, extrahera träningsdata, manipulera utdata och hitta prompt injection-exploits.

Varför krävs det?

AI Act kräver robusthetstestning för högrisk AI-system (Art. 9). Även utan reglering är red teaming den mest effektiva metoden för att upptäcka sårbarheter innan produktionsimplementering.

AI red teaming-tekniker

Viktiga tekniker inkluderar: prompt injection, jailbreaking (kringgående av modellrestriktioner), dataextraktion (extrahering av träningsdatafragment), adversarial inputs (modifierade indata som orsakar felaktiga resultat) och model inversion (rekonstruktion av träningsdata från modellen).

Relaterade tjänster och produkter