Обратно към речника Сигурност

AI Guardrails

Защитни механизми, ограничаващи поведението на AI модела — филтри за съдържание, валидиране на изходи, ограничения на правата и контроли за сигурност.

Какво са AI Guardrails?

AI guardrails са контролни механизми, които ограничават поведението на AI модела, за да осигурят безопасност, качество и регулаторно съответствие. Те действат като „предпазни бариери“ — не блокират AI, а го поддържат в безопасни граници.

Видове guardrails

Входни guardrails — филтриране и валидиране на заявки преди изпращане до модела (блокиране на prompt injection, премахване на PII). Изходни guardrails — проверка на отговорите на модела преди доставка до потребителите (валидиране на формат, проверка за халюцинации, филтри за съдържание). Процесни guardrails — ограничения на правата, бюджети за токени, ескалация към хора при ниска увереност.

Корпоративни изисквания

В корпоративната среда guardrails трябва да включват: валидиране на съответствието с политиките, защита на поверителна информация, одитируемост (всяко решение на guardrails трябва да се логва), конфигурируемост по отдел/роля и интеграция със съществуващи системи за сигурност (SIEM, DLP).