Datastyring i AI-æraen — kvalitet, katalog og data lineage

Data governance som AI's fundament

Når en organisation lancerer sit første AI-system og opdager, at prognoserne er inkonsistente, og modellen genererer absurde resultater, er den første refleks at lede efter fejl i algoritmen. I 80% af tilfældene ligger den virkelige årsag andetsteds: inputdata er ufuldstændige, inkonsistent mærkede eller afspejler gamle forretningsprocesser, der for længst er ophørt med at gælde. Data governance er det sæt processer og værktøjer, der forebygger disse problemer, inden de bliver dyre.

Datakvalitet — dimensioner og måling

Datakvalitet er ikke et endimensionelt begreb. Praktisk kvalitetsstyring kræver måling af flere uafhængige dimensioner:

Fuldstændighed — hvilken andel af obligatoriske felter er udfyldt? Usynlige tomme værdier i kildesystemtabeller kan ødelægge prædiktive modeller.
Konsistens — har de samme data gemt i forskellige systemer identiske værdier? Uoverensstemmelser mellem CRM og ERP i grundlæggende kundeattributter er et almindeligt problem.
Aktualitet — hvor gamle er data sammenlignet med virkeligheden? For AI-systemer, der opererer i realtid, er dette en kritisk dimension.
Nøjagtighed — afspejler data virkeligheden? Verifikation kræver eksterne referencekilder eller manuel stikprøvekontrol.

Datakatalog — hvor ting er, og hvad de betyder

I en moden organisation er data gemt i snesevis af systemer, databaser og filer. Uden datakatalog begynder hvert nyt AI-projekt med ugers undersøgelse: hvor er ordredata? Hvad betyder feltet 'status_v2' i kundetabellen? Hvem er ansvarlig for kvaliteten af salgsdata?

Et datakatalog besvarer disse spørgsmål automatisk ved at scanne kildesystemer og berige tekniske metadata med forretningsbeskrivelser, ejerinformation og følsomhedsklassifikationer. For AI-systemer er det afgørende, at kataloget er tilgængeligt for automatiseringsværktøjer — en AI-model kan da selv undersøge tilgængelige datakilder, inden analysen påbegyndes.

Data lineage — sporing af datastrømme

Når en AI-model genererer et mistænkeligt resultat, skal undersøgelsen besvare spørgsmålet: hvor kommer denne værdi fra, og hvilke transformationer har den gennemgået undervejs? Data lineage registrerer automatisk datastrømmen fra kilde via successive transformationer til den endelige tabel eller model. Det er et uundværligt værktøj ikke kun til fejlsøgning, men også til compliance — GDPR, DORA og sektorregler kræver dokumentation af oprindelsen af data brugt i beslutninger vedrørende fysiske personer.

Master data management (MDM)

Enhver stor organisation har problemet med multiple definitioner af de samme enheder: en kunde i CRM, en kunde i det finansielle system og en kunde på e-handelsplatformen er ofte tre forskellige enheder, der burde repræsentere den samme person eller virksomhed. Master data management skaber én pålidelig post for hver vigtig enhed og propagerer den til afledte systemer. Uden MDM lærer AI-systemer af data, hvor den samme kunde behandles som tre forskellige.

Sådan begynder du — en iterativ tilgang

Data governance behøver ikke at være et flerårigt projekt forud for lancering af ethvert AI-system. Den praktiske tilgang er at opbygge governance parallelt med de første implementeringer: identificer de mest kritiske datasæt for det planlagte AI-system og begynd med deres kvalitetsprofil. Udvid omfanget gradvist ved at lære af reelle produktionsproblemer.