Tillbaka till ordlistan Teknik

Syntetisk data

Artificiellt genererade datamängder som bevarar statistiska egenskaper hos originalen — för AI-träning utan integritetskränkningar.

Vad är syntetisk data?

Syntetisk data är artificiellt genererade datamängder som bevarar statistiska egenskaper och mönster hos originalen men inte innehåller verkliga personuppgifter. Enligt Gartner kommer syntetisk data att utgöra majoriteten av AI-träningsdata senast 2030.

Genereringsmetoder

Huvudsakliga tillvägagångssätt: GAN:s (Generative Adversarial Networks), diffusionsmodeller (särskilt för bilder), statistiska regler (generering baserad på sannolikhetsfördelningar) och LLM:er (generering av texter, testscenarier, konversationer).

Företagsfördelar

Syntetisk data löser tre viktiga problem: integritet (inga personuppgifter = inget GDPR-problem), tillgänglighet (du kan generera miljontals poster från bara tusentals) och balans (utjämning av ojämna klasser — t.ex. sällsynta bedrägerifall blir välrepresenterade).