Zurück zum Glossar Sicherheit

AI Red Teaming

Testen der KI-Systemsicherheit durch simulierte Angriffe — Schwachstellen finden, Guardrail-Umgehungen und Methoden zur Modellmanipulation aufdecken.

Was ist AI Red Teaming?

AI Red Teaming ist die Praxis, die Sicherheit von KI-Systemen durch Simulation feindlicher Angriffe zu testen. Das Red Team versucht: Modell-Guardrails zu umgehen, die Generierung schädlicher Inhalte zu erzwingen, Trainingsdaten zu extrahieren, Ausgaben zu manipulieren und Prompt-Injection-Exploits zu finden.

Warum ist es erforderlich?

Der AI Act schreibt Robustheitstests für Hochrisiko-KI-Systeme vor (Art. 9). Auch ohne Regulierung ist Red Teaming die effektivste Methode, um Schwachstellen vor dem Produktiveinsatz zu entdecken.

AI-Red-Teaming-Techniken

Zentrale Techniken umfassen: Prompt Injection, Jailbreaking (Umgehung von Modellbeschränkungen), Datenextraktion (Extraktion von Trainingsdatenfragmenten), Adversarial Inputs (modifizierte Eingaben, die falsche Ergebnisse verursachen) und Model Inversion (Rekonstruktion von Trainingsdaten aus dem Modell).

Verwandte Dienstleistungen und Produkte