Zurueck zum Blog Enterprise

Datenmanagement in der KI-Ära — Datenqualität, Datenkatalog und Data Lineage

Zespół ESKOM.AI 2026-05-22 Lesezeit: 7 min

Daten als Grundlage für KI

Die Qualität eines KI-Systems wird letztlich durch die Qualität seiner Daten bestimmt. Garbage in, garbage out gilt für KI umso mehr — ein perfektes Modell liefert bei schlechten Eingabedaten schlechte Ergebnisse. Data Governance — also die systematische Verwaltung von Daten — wird zu einer strategischen Notwendigkeit.

Datenkatalog

Ein Datenkatalog ist ein Verzeichnis aller Datenressourcen der Organisation: welche Daten existieren, wo sie gespeichert sind, wer der Eigentümer ist, welches Format und welche Qualität sie haben und wer Zugriff hat. Im KI-Kontext identifiziert der Katalog zusätzlich, welche Daten für Training, Validierung und Inferenz verwendet werden.

Datenqualität

Automatisierte Qualitätskontrollen umfassen: Vollständigkeit (fehlen kritische Felder?), Konsistenz (stimmen Daten über verschiedene Systeme überein?), Aktualität (wie alt sind die Daten?), Genauigkeit (stimmen sie mit der Realität überein?), Einzigartigkeit (gibt es Duplikate?) und Konformität (entsprechen die Daten dem erwarteten Format?).

Data Lineage

Data Lineage dokumentiert den Datenfluss von der Quelle bis zum Verbraucher: woher die Daten stammen, welche Transformationen sie durchlaufen haben, welche Systeme sie nutzen und wie sie sich im Laufe der Zeit verändert haben. Für KI ist Lineage entscheidend — es beantwortet die Frage: Mit welchen Daten wurde das Modell trainiert und wie haben sich diese verändert?

DSGVO und Data Governance

Data Governance und Datenschutz sind untrennbar: Verarbeitungsverzeichnisse (DSGVO Art. 30), Recht auf Vergessenwerden (wie löscht man Daten aus trainierten Modellen?), Datenminimierung (nur so viele Daten sammeln wie nötig), Aufbewahrungsfristen und automatische Löschung sowie Datenschutz-Folgenabschätzung für KI-Systeme.

Empfehlungen

  • Beginnen Sie mit einer Inventarisierung der kritischsten Datenbestände
  • Implementieren Sie automatisierte Qualitätsprüfungen in Datenpipelines
  • Bauen Sie einen Datenkatalog mit Metadaten und Eigentümerzuordnung auf
  • Implementieren Sie Data Lineage für KI-Trainingsdaten
  • Integrieren Sie DSGVO-Anforderungen von Anfang an in die Data-Governance-Strategie
#data governance #data quality #data catalog #lineage #MDM