Was ist Modellvergiftung?
Modellvergiftung (Model Poisoning) ist ein Angriff auf KI-Systeme, bei dem ein Angreifer schädliche oder manipulierte Daten in den Trainingsprozess einschleust. Ziel ist es, das Modell so zu beeinflussen, dass es bei bestimmten Eingaben fehlerhafte oder schädliche Ausgaben produziert, während es für normale Eingaben korrekt erscheint.
Angriffstypen
Backdoor-Angriffe verstecken Trigger im Modell, die bei bestimmten Eingaben unerwünschtes Verhalten auslösen. Label-Poisoning manipuliert die Trainingslabels, um die Klassenentscheidungsgrenzen zu verschieben. Data-Poisoning fügt sorgfältig konstruierte Beispiele ein, die das Modell in eine bestimmte Richtung lenken.
Schutzmaßnahmen
Unternehmen schützen sich durch sorgfältige Datenvalidierung und -filterung, Monitoring der Trainingsdatenquellen, adversarielle Robustheitstests und Anomalieerkennung in Trainingsdaten. Besonders wichtig ist die Absicherung von Data-Pipelines und die Überprüfung von Drittanbieter-Datensätzen.