Обратно към речника Сигурност

AI Red Teaming

Тестване на сигурността на AI системи чрез симулирани атаки — намиране на уязвимости, заобикаляне на guardrails и методи за манипулиране на модела.

Какво е AI Red Teaming?

AI Red Teaming е практиката на тестване на сигурността на AI системи чрез симулиране на враждебни атаки. Червеният екип се опитва: да заобиколи guardrails на модела, да наложи генериране на вредно съдържание, да извлече данни за обучение, да манипулира изходите и да намери експлойти за prompt injection.

Защо е задължително?

AI Act изисква тестване на устойчивостта за AI системи с висок риск (чл. 9). Дори без регулация, red teaming е най-ефективният метод за откриване на уязвимости преди внедряване в продукция.

Техники за AI red teaming

Ключови техники включват: prompt injection, jailbreaking (заобикаляне на ограниченията на модела), извличане на данни (получаване на фрагменти от данни за обучение), adversarial inputs (модифицирани входове, причиняващи некоректни резултати) и model inversion (реконструкция на данни за обучение от модела).

Свързани услуги и продукти