Was ist Data Poisoning?
Data Poisoning ist ein Angriff auf die Integrität von KI-Systemen, bei dem Angreifer den Trainingsprozess kompromittieren, indem sie schädliche Datenpunkte in den Trainingssatz einschleusen. Im Gegensatz zu Inferenz-Angriffen, die fertige Modelle angreifen, zielen Poisoning-Angriffe auf das Fundament des Modells — die Daten, aus denen es lernt. Das resultierende vergiftete Modell verhält sich in der Produktion möglicherweise normal für die meisten Inputs, ist aber bei speziellen Eingaben oder über seine gesamte Leistung hinweg kompromittiert.
Angriffstypen
Backdoor-Poisoning-Angriffe betten verborgene Auslöser in das Modell ein — ein spezifisches Muster oder Präfix, das bei Anwesenheit eine vorgegebene Ausgabe erzeugt. Performance-Degradation-Angriffe verringern die Gesamtmodellgenauigkeit ohne spezifische Auslöser. Zielgerichtete Angriffe beeinflussen Prognosen für spezifische Klassen oder Individuen. Alle erfordern, dass ein Angreifer entweder Trainingsdata oder -pipeline kompromittiert.
Abwehrmaßnahmen
Zum Schutz vor Data Poisoning: Validieren Sie Datenquellen und implementieren Sie Datenprovenienz-Tracking. Verwenden Sie statistische Methoden zur Erkennung von Anomalien im Trainingsdatensatz. Implementieren Sie robuste Trainingsverfahren wie differenzielle Datenschutztechniken. Überwachen Sie Modellverhalten auf anomale Muster, die Backdoors anzeigen könnten. Führen Sie regelmäßige Audits von Daten-Pipelines und Zugriffskontrolle durch.