Zpět na slovník Bezpečnost

Otraveni modelu

Utoky otravenim modelu kompromituji AI systemy manipulaci parametru modelu nebo tervacicim procesem k zavadeni skrytych skodlivych chovani.

Co je otraveni modelu?

Otraveni modelu je vektor utoku, kde utocnici zasahuji do AI modelu samotneho -- jeho vah, architektury nebo trenoavaciho procesu -- k vlozeni skodliveho chovani. Na rozdil od otraveni dat, ktere cili na tervaci datovou sadu, otraveni modelu primo manipuluje s naucenymi parametry. Vysledny model se jevi jako fungujici normalne za standardnich podminek, ale chovap se nekoreknte, kdyz je spusten specifickyimi vstupy.

Mechanismy utoku

Utoky zadnich vretek vkladaji skryte spoustece, ktere aktivuji skodlive chovani pouze kdyz je v vstupu pritomen specifickyy vzor. Trojanske utoky modifikuji vahy modelu k vytvoreni skryte funkcionality. V prostredi federovaneho uceni muze kompromitovany ucastnik vkladat otravene gradientove aktualizace poskozujici sdileny model.

Strategie ochrany

Podniky by melo overovat integritu vsech predtrenovanych modelu a komponent tretiich stran pomoci kryptografickych kontrolnich souctu a duveryhodnych zdroju. Techniky cisteni neuronovych siti mohou detekovat a odstrannovat zadni vratka z trenovanych modelu. Pravidelny audit modelu -- testovani oproti znamym vzorum spoustece -- pomaha identifikovat kompromitovane modely pred nasazenim.

Související služby a produkty