Governança de dades a l'era de la IA — qualitat, catàleg i llinatge de dades

La governança de dades com a fonament de la IA

Quan una organització engega el primer sistema d'IA i descobreix que les prediccions són incoherents i el model genera resultats absurds, el primer impuls és buscar errors en l'algorisme. En el 80% dels casos, la causa real és una altra: les dades d'entrada són incompletes, etiquetades de manera incoherent o reflecteixen processos de negoci antics que ja no s'apliquen. La governança de dades és un conjunt de processos i eines que preveu aquests problemes abans que es tornin costosos.

Qualitat de les dades — dimensions i mesurament

La qualitat de les dades no és un concepte unidimensional. La gestió pràctica de la qualitat requereix el mesurament de diverses dimensions independents:

Completesa — quin percentatge dels camps requerits està emplenat? Els valors buits invisibles a les taules dels sistemes font poden arruïnar models predictius.
Coherència — les mateixes dades emmagatzemades en sistemes diferents tenen un valor idèntic? Les discrepàncies entre CRM i ERP en atributs bàsics del client són un problema generalitzat.
Actualitat — com d'antigues són les dades en comparació amb la realitat? Per als sistemes d'IA que operen en temps real, aquesta és una dimensió crítica.
Exactitud — les dades reflecteixen la realitat? La verificació requereix fonts de referència externes o mostreig manual.

Catàleg de dades — on és què i què significa

En una organització madura, les dades s'emmagatzemen en desenes de sistemes, bases de dades i fitxers. Sense un catàleg de dades, un nou projecte d'IA comença amb setmanes d'investigació: on són les dades de comandes? Què significa el camp "status_v2" a la taula de clients? Qui és responsable de la qualitat de les dades de vendes?

El catàleg de dades respon a aquestes preguntes automàticament, escanejant els sistemes font i enriquint les metadades tècniques amb descripcions de negoci, informació sobre propietaris i classificacions de sensibilitat. Per als sistemes d'IA és fonamental que el catàleg sigui accessible per a eines d'automatització — el model d'IA pot llavors investigar per si sol les fonts de dades disponibles abans de començar l'anàlisi.

Llinatge de dades — seguiment del flux de dades

Quan un model d'IA genera un resultat sospititós, la investigació ha de respondre la pregunta: d'on prové aquest valor i quines transformacions ha experimentat pel camí? El llinatge de dades registra automàticament el flux de dades des de la font passant per les transformacions successives fins a la taula o model final. És una eina imprescindible no només per a la depuració, sinó també per al compliance — les regulacions RGPD, DORA i sectorials requereixen documentar d'on provenen les dades utilitzades en decisions que afecten persones físiques.

Gestió de dades mestres (MDM)

Tota organització gran té el problema de múltiples definicions de les mateixes entitats: un client al CRM, un client al sistema financer i un client a la plataforma de comerç electrònic són sovint tres entitats diferents que haurien de representar la mateixa persona o empresa. La gestió de dades mestres crea un registre fiable únic de cada entitat clau i el propaga als sistemes derivats. Sense MDM, els sistemes d'IA aprenen de dades on el mateix client és tractat com tres de diferents.

Com començar — enfocament iteratiu

La governança de dades no ha de ser un projecte plurianual abans de llançar qualsevol sistema d'IA. L'enfocament pràctic consisteix a construir la governança en paral·lel amb les primeres implementacions: identifica els conjunts de dades més crítics per al sistema d'IA planificat i comença pel seu perfil de qualitat. Amplia l'abast gradualment, aprenent dels problemes reals en producció.