Atacuri adversariale împotriva AI

Înțelegerea peisajului amenințărilor adversariale

Atacurile adversariale creează intrări special concepute care înșală modelele AI să producă rezultate incorecte — în timp ce par neschimbate oamenilor. Un clasificator de imagini poate identifica un semn "STOP" drept "limită de viteză" după adăugarea unui zgomot de imagine abia perceptibil. Aceste vulnerabilități au implicații serioase de securitate pentru organizațiile care implementează AI în aplicații critice.

Tipuri principale de atacuri

Atacurile cu cutie albă au acces complet la model și greutățile sale. Atacurile cu cutie neagră creează exemple adversariale observând doar ieșirile. Atacurile bazate pe transfer exploatează faptul că exemplele adversariale se transferă adesea între modele. Injectarea prompturilor este un atac adversarial specific LLM.

Strategii de apărare

Antrenamentul adversarial include exemple adversariale în procesul de antrenare pentru a îmbunătăți robustețea. Tehnicile de preprocesare și filtrare a intrărilor pot elimina perturbațiile. Metodele de estimare a incertitudinii pot detecta comportamentul neobișnuit al modelului.

Înțelegerea peisajului amenințărilor adversariale

Tipuri principale de atacuri

Strategii de apărare

Termeni înrudiți

Servicii și produse conexe