Обратно към речника Сигурност

Противникови атаки срещу AI

Противниковите атаки манипулират AI модели чрез специално проектирани входни данни — смущения в изображения, инжектиране на подкани или фалшифицирани данни — нарушавайки производителността или заобикаляйки защитите.

Видове противникови атаки

Противниковите атаки включват: атаки с входни данни (входове, влошаващи модела, изглеждащи валидни за хора), индиректни атаки (вграждане на злонамерено съдържание в документи) и атаки чрез отравяне на обучението (вмъкване на злонамерени данни в обучаващите данни).

Корпоративна уместност

В бизнеса практическите противникови атаки включват инжектиране на подкани срещу LLM системи, атаки с класификация на изображения и атаки с фалшиви прегледи на продукти.

Защита

Защитата включва противниково обучение, филтриране на входни данни, мониторинг на разпределението на входните данни и редовно тестване за уязвимости. Препоръчва се многопластова защита.

Свързани услуги и продукти