Was ist AI Red Teaming?
AI Red Teaming ist die Praxis, die Sicherheit von KI-Systemen durch Simulation feindlicher Angriffe zu testen. Das Red Team versucht: Modell-Guardrails zu umgehen, die Generierung schädlicher Inhalte zu erzwingen, Trainingsdaten zu extrahieren, Ausgaben zu manipulieren und Prompt-Injection-Exploits zu finden.
Warum ist es erforderlich?
Der AI Act schreibt Robustheitstests für Hochrisiko-KI-Systeme vor (Art. 9). Auch ohne Regulierung ist Red Teaming die effektivste Methode, um Schwachstellen vor dem Produktiveinsatz zu entdecken.
AI-Red-Teaming-Techniken
Zentrale Techniken umfassen: Prompt Injection, Jailbreaking (Umgehung von Modellbeschränkungen), Datenextraktion (Extraktion von Trainingsdatenfragmenten), Adversarial Inputs (modifizierte Eingaben, die falsche Ergebnisse verursachen) und Model Inversion (Rekonstruktion von Trainingsdaten aus dem Modell).