Mitä on AI Red Teaming?
AI Red Teaming on käytäntö, jossa tekoälyjärjestelmän tietoturvaa testataan simuloimalla vihamielisiä hyökkäyksiä. Red team yrittää: ohittaa mallin guardrailit, pakottaa haitallisen sisällön generoinnin, poimia koulutusdataa, manipuloida tulosteita ja löytää prompt injection -haavoittuvuuksia.
Miksi se on pakollista?
AI Act edellyttää kestävyystestausta korkean riskin tekoälyjärjestelmille (Art. 9). Jopa ilman sääntelyä red teaming on tehokkain menetelmä haavoittuvuuksien löytämiseen ennen tuotantokäyttöönottoa.
AI red teaming -tekniikat
Keskeisiä tekniikoita ovat: prompt injection, jailbreaking (mallirajoitusten ohittaminen), datan poiminta (koulutusdatafragmenttien uuttaminen), adversarial inputs (muokatut syötteet, jotka aiheuttavat virheellisiä tuloksia) ja model inversion (koulutusdatan rekonstruointi mallista).