Înțelegerea peisajului amenințărilor adversariale
Atacurile adversariale creează intrări special concepute care înșală modelele AI să producă rezultate incorecte — în timp ce par neschimbate oamenilor. Un clasificator de imagini poate identifica un semn "STOP" drept "limită de viteză" după adăugarea unui zgomot de imagine abia perceptibil. Aceste vulnerabilități au implicații serioase de securitate pentru organizațiile care implementează AI în aplicații critice.
Tipuri principale de atacuri
Atacurile cu cutie albă au acces complet la model și greutățile sale. Atacurile cu cutie neagră creează exemple adversariale observând doar ieșirile. Atacurile bazate pe transfer exploatează faptul că exemplele adversariale se transferă adesea între modele. Injectarea prompturilor este un atac adversarial specific LLM.
Strategii de apărare
Antrenamentul adversarial include exemple adversariale în procesul de antrenare pentru a îmbunătăți robustețea. Tehnicile de preprocesare și filtrare a intrărilor pot elimina perturbațiile. Metodele de estimare a incertitudinii pot detecta comportamentul neobișnuit al modelului.