Wróć do słownika Bezpieczeństwo

Guardrails AI

Mechanizmy ochronne ograniczające zachowanie modeli AI — filtry treści, walidacja wyników, limity uprawnień i kontrola bezpieczeństwa.

Czym są guardrails AI?

Guardrails AI (barierki bezpieczeństwa AI) to mechanizmy kontrolne, które ograniczają zachowanie modeli sztucznej inteligencji w celu zapewnienia bezpieczeństwa, jakości i zgodności regulacyjnej. Działają jako "barierki" — nie blokują AI, ale utrzymują ją w bezpiecznych granicach.

Rodzaje guardrails

Input guardrails — filtrowanie i walidacja zapytań przed wysłaniem do modelu (blokowanie prompt injection, usuwanie PII). Output guardrails — weryfikacja odpowiedzi modelu przed przekazaniem użytkownikowi (walidacja formatu, sprawdzanie halucynacji, filtry treści). Guardrails procesowe — limity uprawnień, budżety tokenów, eskalacja do człowieka przy niskiej pewności.

Enterprise requirements

W środowisku korporacyjnym guardrails muszą obejmować: walidację zgodności z politykami firmowymi, ochronę przed ujawnieniem informacji poufnych, audytowalność (każda decyzja guardrail musi być logowana), konfigurowalność per dział/rola oraz integrację z istniejącymi systemami bezpieczeństwa (SIEM, DLP).