Voltar ao glossário Tecnologia

Dados sintéticos

Conjuntos de dados gerados artificialmente que preservam as propriedades estatísticas dos originais — para treino de IA sem violações de privacidade.

O que são dados sintéticos?

Os dados sintéticos são conjuntos de dados gerados artificialmente que preservam as propriedades estatísticas e os padrões dos originais, mas não contêm dados pessoais reais. Segundo a Gartner, até 2030 os dados sintéticos constituirão a maioria dos dados de treino de IA.

Métodos de geração

Principais abordagens: GAN (Generative Adversarial Networks), modelos de difusão (especialmente para imagens), regras estatísticas (geração baseada em distribuições de probabilidade) e LLM (geração de textos, cenários de teste, conversas).

Vantagens para a empresa

Os dados sintéticos resolvem três problemas-chave: privacidade (sem dados pessoais = sem problema de RGPD), disponibilidade (gerar milhões de registos a partir de apenas milhares) e equilíbrio (equilibrar classes desbalanceadas — por ex. casos de fraude raros ficam bem representados).