Daten als Grundlage für KI
Die Qualität eines KI-Systems wird letztlich durch die Qualität seiner Daten bestimmt. Garbage in, garbage out gilt für KI umso mehr — ein perfektes Modell liefert bei schlechten Eingabedaten schlechte Ergebnisse. Data Governance — also die systematische Verwaltung von Daten — wird zu einer strategischen Notwendigkeit.
Datenkatalog
Ein Datenkatalog ist ein Verzeichnis aller Datenressourcen der Organisation: welche Daten existieren, wo sie gespeichert sind, wer der Eigentümer ist, welches Format und welche Qualität sie haben und wer Zugriff hat. Im KI-Kontext identifiziert der Katalog zusätzlich, welche Daten für Training, Validierung und Inferenz verwendet werden.
Datenqualität
Automatisierte Qualitätskontrollen umfassen: Vollständigkeit (fehlen kritische Felder?), Konsistenz (stimmen Daten über verschiedene Systeme überein?), Aktualität (wie alt sind die Daten?), Genauigkeit (stimmen sie mit der Realität überein?), Einzigartigkeit (gibt es Duplikate?) und Konformität (entsprechen die Daten dem erwarteten Format?).
Data Lineage
Data Lineage dokumentiert den Datenfluss von der Quelle bis zum Verbraucher: woher die Daten stammen, welche Transformationen sie durchlaufen haben, welche Systeme sie nutzen und wie sie sich im Laufe der Zeit verändert haben. Für KI ist Lineage entscheidend — es beantwortet die Frage: Mit welchen Daten wurde das Modell trainiert und wie haben sich diese verändert?
DSGVO und Data Governance
Data Governance und Datenschutz sind untrennbar: Verarbeitungsverzeichnisse (DSGVO Art. 30), Recht auf Vergessenwerden (wie löscht man Daten aus trainierten Modellen?), Datenminimierung (nur so viele Daten sammeln wie nötig), Aufbewahrungsfristen und automatische Löschung sowie Datenschutz-Folgenabschätzung für KI-Systeme.
Empfehlungen
- Beginnen Sie mit einer Inventarisierung der kritischsten Datenbestände
- Implementieren Sie automatisierte Qualitätsprüfungen in Datenpipelines
- Bauen Sie einen Datenkatalog mit Metadaten und Eigentümerzuordnung auf
- Implementieren Sie Data Lineage für KI-Trainingsdaten
- Integrieren Sie DSGVO-Anforderungen von Anfang an in die Data-Governance-Strategie