Was sind adversarielle Angriffe?
Adversarielle Angriffe sind Techniken, bei denen sorgfältig gestaltete Inputs KI-Modelle dazu bringen, falsche oder unerwünschte Ausgaben zu erzeugen. In der Computer Vision können minimale, für Menschen unsichtbare Pixel-Modifikationen ein Bild falsch klassifizieren lassen — z. B. ein Stoppschild als Geschwindigkeitsbegrenzung erkennen. Bei Sprachmodellen können Prompt-Injection-Angriffe Sicherheitsleitplanken umgehen. Diese Schwachstellen sind besonders besorgniserregend für sicherheitskritische Anwendungen.
Angriffstypen
Evasionsangriffe manipulieren Eingaben zur Test-/Inferenzzeit, um eine Fehlklassifizierung auszulösen. Vergiftungsangriffe beschädigen das Modell, indem sie schädliche Daten in den Trainingssatz einschleusen. Backdoor-Angriffe trainieren Modelle so, dass sie bei vordefinierten Auslösern vorgegebene Ausgaben produzieren. Modell-Inversionsangriffe versuchen, Informationen über Trainingsatensätze aus Modellen zu extrahieren.
Abwehrstrategien
Unternehmen sollten adversarielle Robustheitsbewertungen als Teil ihrer KI-Sicherheitsstrategie durchführen. Techniken umfassen: adversarielle Trainingsverfahren, Eingabe-Validierung und Sanierung, Ensemble-Methoden, Ausgabe-Monitoring auf anomale Muster und Red-Teaming-Übungen. KI-Systeme in hochriskanten Anwendungen wie autonomem Fahren, Gesichtserkennung oder Finanzbetrugserkennungssystemen benötigen besonders robuste Abwehrmechanismen.