Tilbage til ordlisten Sikkerhed

AI Red Teaming

Test af AI-systemsikkerhed gennem simulerede angreb — finde sårbarheder, omgå guardrails og opdage metoder til modelmanipulation.

Hvad er AI Red Teaming?

AI Red Teaming er praksis med at teste AI-systemsikkerhed ved at simulere fjendtlige angreb. Red team forsøger at: omgå modellens guardrails, tvinge generering af skadeligt indhold, udtrække træningsdata, manipulere output og finde prompt injection-udnyttelser.

Hvorfor er det påkrævet?

AI Act kræver robusthedstest for højrisiko AI-systemer (Art. 9). Selv uden regulering er red teaming den mest effektive metode til at opdage sårbarheder før produktionsimplementering.

AI red teaming-teknikker

Vigtige teknikker inkluderer: prompt injection, jailbreaking (omgåelse af modelrestriktioner), dataudtræk (udtrækning af træningsdatafragmenter), adversarial inputs (modificerede input, der forårsager forkerte resultater) og model inversion (rekonstruktion af træningsdata fra modellen).

Relaterede tjenester og produkter