O que são dados sintéticos?
Os dados sintéticos são conjuntos de dados gerados artificialmente que preservam as propriedades estatísticas e os padrões dos originais, mas não contêm dados pessoais reais. Segundo a Gartner, até 2030 os dados sintéticos constituirão a maioria dos dados de treino de IA.
Métodos de geração
Principais abordagens: GAN (Generative Adversarial Networks), modelos de difusão (especialmente para imagens), regras estatísticas (geração baseada em distribuições de probabilidade) e LLM (geração de textos, cenários de teste, conversas).
Vantagens para a empresa
Os dados sintéticos resolvem três problemas-chave: privacidade (sem dados pessoais = sem problema de RGPD), disponibilidade (gerar milhões de registos a partir de apenas milhares) e equilíbrio (equilibrar classes desbalanceadas — por ex. casos de fraude raros ficam bem representados).