Zurück zum Glossar Sicherheit

Modellvergiftung

Adversarielle Angriffe, bei denen schädliche Daten in den Trainingsprozess eingeschleust werden, um das Modellverhalten zu manipulieren.

Was ist Modellvergiftung?

Modellvergiftung (Model Poisoning) ist ein Angriff auf KI-Systeme, bei dem ein Angreifer schädliche oder manipulierte Daten in den Trainingsprozess einschleust. Ziel ist es, das Modell so zu beeinflussen, dass es bei bestimmten Eingaben fehlerhafte oder schädliche Ausgaben produziert, während es für normale Eingaben korrekt erscheint.

Angriffstypen

Backdoor-Angriffe verstecken Trigger im Modell, die bei bestimmten Eingaben unerwünschtes Verhalten auslösen. Label-Poisoning manipuliert die Trainingslabels, um die Klassenentscheidungsgrenzen zu verschieben. Data-Poisoning fügt sorgfältig konstruierte Beispiele ein, die das Modell in eine bestimmte Richtung lenken.

Schutzmaßnahmen

Unternehmen schützen sich durch sorgfältige Datenvalidierung und -filterung, Monitoring der Trainingsdatenquellen, adversarielle Robustheitstests und Anomalieerkennung in Trainingsdaten. Besonders wichtig ist die Absicherung von Data-Pipelines und die Überprüfung von Drittanbieter-Datensätzen.

Verwandte Dienstleistungen und Produkte