Governança de dados na era da AI — qualidade, catálogo e lineage de dados

Data governance como fundamento da AI

Quando uma organização lança o seu primeiro sistema de AI e descobre que as previsões são inconsistentes e o modelo gera resultados absurdos, o primeiro impulso é procurar erros no algoritmo. Em 80% dos casos, a verdadeira causa está noutro lugar: os dados de entrada são incompletos, etiquetados de forma inconsistente ou refletem processos empresariais antigos que há muito deixaram de vigorar. Data governance é o conjunto de processos e ferramentas que previne estes problemas antes de se tornarem dispendiosos.

Qualidade dos dados — dimensões e medição

A qualidade dos dados não é um conceito unidimensional. A gestão prática da qualidade requer a medição de várias dimensões independentes:

Completude — que percentagem dos campos obrigatórios está preenchida? Valores vazios invisíveis nas tabelas dos sistemas fonte podem arruinar modelos preditivos.
Consistência — os mesmos dados armazenados em diferentes sistemas têm valores idênticos? Discrepâncias entre CRM e ERP nos atributos básicos do cliente são um problema comum.
Atualidade — quão antigos são os dados em comparação com a realidade? Para sistemas de AI que operam em tempo real, esta é uma dimensão crítica.
Exatidão — os dados refletem a realidade? A verificação requer fontes de referência externas ou amostragem manual.

Catálogo de dados — onde está o quê e o que significa

Numa organização madura, os dados estão armazenados em dezenas de sistemas, bases de dados e ficheiros. Sem um catálogo de dados, cada novo projeto de AI começa com semanas de investigação: onde estão os dados de encomendas? O que significa o campo 'status_v2' na tabela de clientes? Quem é responsável pela qualidade dos dados de vendas?

Um catálogo de dados responde a estas perguntas automaticamente, varrendo os sistemas fonte e enriquecendo os metadados técnicos com descrições empresariais, informação sobre proprietários e classificações de sensibilidade. Para sistemas de AI, é crucial que o catálogo esteja acessível para ferramentas de automação — o modelo de AI pode então investigar autonomamente as fontes de dados disponíveis antes de iniciar a análise.

Data lineage — rastreamento do fluxo de dados

Quando um modelo de AI gera um resultado suspeito, a investigação deve responder à pergunta: de onde vem este valor e que transformações sofreu pelo caminho? O data lineage regista automaticamente o fluxo de dados desde a fonte, passando pelas transformações sucessivas, até à tabela ou modelo final. É uma ferramenta indispensável não apenas para debugging, mas também para compliance — o RGPD, a DORA e as regulamentações setoriais exigem documentação da origem dos dados utilizados em decisões relativas a pessoas singulares.

Gestão de dados mestres (MDM)

Toda grande organização tem o problema de múltiplas definições das mesmas entidades: um cliente no CRM, um cliente no sistema financeiro e um cliente na plataforma de e-commerce são frequentemente três entidades diferentes que deveriam representar a mesma pessoa ou empresa. A gestão de dados mestres cria um único registo fiável de cada entidade importante e propaga-o para os sistemas derivados. Sem MDM, os sistemas de AI aprendem com dados em que o mesmo cliente é tratado como três diferentes.

Como começar — abordagem iterativa

Data governance não tem de ser um projeto plurianual antes do lançamento de qualquer sistema de AI. A abordagem prática consiste em construir a governance paralelamente com as primeiras implementações: identifique os conjuntos de dados mais críticos para o sistema de AI planeado e comece pelo seu perfil de qualidade. Expanda o âmbito gradualmente, aprendendo com problemas reais de produção.