Vad är syntetisk data?
Syntetisk data är artificiellt genererade datamängder som bevarar statistiska egenskaper och mönster hos originalen men inte innehåller verkliga personuppgifter. Enligt Gartner kommer syntetisk data att utgöra majoriteten av AI-träningsdata senast 2030.
Genereringsmetoder
Huvudsakliga tillvägagångssätt: GAN:s (Generative Adversarial Networks), diffusionsmodeller (särskilt för bilder), statistiska regler (generering baserad på sannolikhetsfördelningar) och LLM:er (generering av texter, testscenarier, konversationer).
Företagsfördelar
Syntetisk data löser tre viktiga problem: integritet (inga personuppgifter = inget GDPR-problem), tillgänglighet (du kan generera miljontals poster från bara tusentals) och balans (utjämning av ojämna klasser — t.ex. sällsynta bedrägerifall blir välrepresenterade).