Az adversarial fenyegetési táj megértése
Az adversarial támadások gondosan tervezett bemeneteket hoznak létre, amelyek az AI-modelleket hibás eredményekre tévesztik meg — miközben az emberek számára változatlannak tűnnek. Egy képosztályozó „sztopp" táblát "sebesség limit" táblaként azonosíthat alig észrevehető képzaj hozzáadása után. Ezek a sérülékenységek komoly biztonsági vonatkozásokkal bírnak az AI-t kritikus alkalmazásokban alkalmáz szervezetek számára.
Főbb támadási típusok
A fehér dobozos (white-box) támadások teljes hozzáféréssel rendelkeznek a modellhez és annak súlyaihoz. A fekete dobozos (black-box) támadások csak a kimenetek megfigyelésével hoznak létre adversarial példányokat. Az átviteli alapú támadások kihasználják, hogy az adversarial példányok sokszor különböző modellek közt is átvitelhetők. A prompt injection LLM-specifikus adversarial támadás.
Védelmi stratégiák
Az adversarial edzés adversarial példányokat foglal bele a tanítási folyamatba, hogy javítsa a robusztusságot. A bemeneti előfeldolgozás és szűrési technikák a perturbációkat beérkezésük előtt eltávolíthatják. A bizonytalanság-becslés módszerei segíthetnek az adversarial bemenetekből eredő szokatlan modelllviselkedés kimutatásában.