Какво е AI Red Teaming?
AI Red Teaming е практиката на тестване на сигурността на AI системи чрез симулиране на враждебни атаки. Червеният екип се опитва: да заобиколи guardrails на модела, да наложи генериране на вредно съдържание, да извлече данни за обучение, да манипулира изходите и да намери експлойти за prompt injection.
Защо е задължително?
AI Act изисква тестване на устойчивостта за AI системи с висок риск (чл. 9). Дори без регулация, red teaming е най-ефективният метод за откриване на уязвимости преди внедряване в продукция.
Техники за AI red teaming
Ключови техники включват: prompt injection, jailbreaking (заобикаляне на ограниченията на модела), извличане на данни (получаване на фрагменти от данни за обучение), adversarial inputs (модифицирани входове, причиняващи некоректни резултати) и model inversion (реконструкция на данни за обучение от модела).