Zurück zum Glossar Sicherheit

Data Poisoning

Angriffe, die die Trainingsdaten eines KI-Modells korrumpieren, um das Modell dazu zu bringen, im Deployment fehlerhafte oder manipulierbare Prognosen zu machen.

Was ist Data Poisoning?

Data Poisoning ist ein Angriff auf die Integrität von KI-Systemen, bei dem Angreifer den Trainingsprozess kompromittieren, indem sie schädliche Datenpunkte in den Trainingssatz einschleusen. Im Gegensatz zu Inferenz-Angriffen, die fertige Modelle angreifen, zielen Poisoning-Angriffe auf das Fundament des Modells — die Daten, aus denen es lernt. Das resultierende vergiftete Modell verhält sich in der Produktion möglicherweise normal für die meisten Inputs, ist aber bei speziellen Eingaben oder über seine gesamte Leistung hinweg kompromittiert.

Angriffstypen

Backdoor-Poisoning-Angriffe betten verborgene Auslöser in das Modell ein — ein spezifisches Muster oder Präfix, das bei Anwesenheit eine vorgegebene Ausgabe erzeugt. Performance-Degradation-Angriffe verringern die Gesamtmodellgenauigkeit ohne spezifische Auslöser. Zielgerichtete Angriffe beeinflussen Prognosen für spezifische Klassen oder Individuen. Alle erfordern, dass ein Angreifer entweder Trainingsdata oder -pipeline kompromittiert.

Abwehrmaßnahmen

Zum Schutz vor Data Poisoning: Validieren Sie Datenquellen und implementieren Sie Datenprovenienz-Tracking. Verwenden Sie statistische Methoden zur Erkennung von Anomalien im Trainingsdatensatz. Implementieren Sie robuste Trainingsverfahren wie differenzielle Datenschutztechniken. Überwachen Sie Modellverhalten auf anomale Muster, die Backdoors anzeigen könnten. Führen Sie regelmäßige Audits von Daten-Pipelines und Zugriffskontrolle durch.

Verwandte Dienstleistungen und Produkte