Adversarial támadások AI ellen

Az adversarial fenyegetési táj megértése

Az adversarial támadások gondosan tervezett bemeneteket hoznak létre, amelyek az AI-modelleket hibás eredményekre tévesztik meg — miközben az emberek számára változatlannak tűnnek. Egy képosztályozó „sztopp" táblát "sebesség limit" táblaként azonosíthat alig észrevehető képzaj hozzáadása után. Ezek a sérülékenységek komoly biztonsági vonatkozásokkal bírnak az AI-t kritikus alkalmazásokban alkalmáz szervezetek számára.

Főbb támadási típusok

A fehér dobozos (white-box) támadások teljes hozzáféréssel rendelkeznek a modellhez és annak súlyaihoz. A fekete dobozos (black-box) támadások csak a kimenetek megfigyelésével hoznak létre adversarial példányokat. Az átviteli alapú támadások kihasználják, hogy az adversarial példányok sokszor különböző modellek közt is átvitelhetők. A prompt injection LLM-specifikus adversarial támadás.

Védelmi stratégiák

Az adversarial edzés adversarial példányokat foglal bele a tanítási folyamatba, hogy javítsa a robusztusságot. A bemeneti előfeldolgozás és szűrési technikák a perturbációkat beérkezésük előtt eltávolíthatják. A bizonytalanság-becslés módszerei segíthetnek az adversarial bemenetekből eredő szokatlan modelllviselkedés kimutatásában.

Az adversarial fenyegetési táj megértése

Főbb támadási típusok

Védelmi stratégiák

Kapcsolódó fogalmak

Kapcsolódó szolgáltatások és termékek