Wróć do słownika Bezpieczeństwo

AI Red Teaming

Testowanie bezpieczeństwa systemów AI poprzez symulowanie ataków — wykrywanie podatności, obejść guardrails i sposobów manipulacji modelem.

Czym jest AI Red Teaming?

AI Red Teaming to praktyka testowania bezpieczeństwa systemów sztucznej inteligencji przez symulowanie ataków adwersaryjnych. Zespół red team próbuje: obejść guardrails modelu, wymusić generowanie szkodliwych treści, wyciągnąć dane treningowe, manipulować wynikami i znaleźć exploity prompt injection.

Dlaczego to wymagane?

AI Act nakłada na dostawców systemów AI wysokiego ryzyka obowiązek testowania odporności (art. 9). Nawet bez regulacji, red teaming to najskuteczniejsza metoda wykrywania podatności przed wdrożeniem produkcyjnym — znacznie tańsza niż obsługa incydentu post-factum.

Techniki red teamingu AI

Kluczowe techniki to: prompt injection (wstrzyknięcie instrukcji do danych wejściowych), jailbreaking (obejście ograniczeń modelu), data extraction (wyciągnięcie fragmentów danych treningowych), adversarial inputs (zmodyfikowane dane wejściowe powodujące błędne wyniki) i model inversion (odtwarzanie danych treningowych z modelu).

Powiązane usługi i produkty