Înapoi la glosar Securitate

Atacuri adversariale împotriva AI

Intrări proiectate intenționat pentru a înșela modelele AI să facă predicții incorecte, creând provocări semnificative de securitate și fiabilitate.

Înțelegerea peisajului amenințărilor adversariale

Atacurile adversariale creează intrări special concepute care înșală modelele AI să producă rezultate incorecte — în timp ce par neschimbate oamenilor. Un clasificator de imagini poate identifica un semn "STOP" drept "limită de viteză" după adăugarea unui zgomot de imagine abia perceptibil. Aceste vulnerabilități au implicații serioase de securitate pentru organizațiile care implementează AI în aplicații critice.

Tipuri principale de atacuri

Atacurile cu cutie albă au acces complet la model și greutățile sale. Atacurile cu cutie neagră creează exemple adversariale observând doar ieșirile. Atacurile bazate pe transfer exploatează faptul că exemplele adversariale se transferă adesea între modele. Injectarea prompturilor este un atac adversarial specific LLM.

Strategii de apărare

Antrenamentul adversarial include exemple adversariale în procesul de antrenare pentru a îmbunătăți robustețea. Tehnicile de preprocesare și filtrare a intrărilor pot elimina perturbațiile. Metodele de estimare a incertitudinii pot detecta comportamentul neobișnuit al modelului.

Servicii și produse conexe