Tilbage til ordlisten Teknologi

Syntetisk data

Kunstigt genererede datasæt, der bevarer statistiske egenskaber af originaler — til AI-træning uden brud på privatlivet.

Hvad er syntetisk data?

Syntetisk data er kunstigt genererede datasæt, der bevarer statistiske egenskaber og mønstre fra originaler, men ikke indeholder reelle personoplysninger. Ifølge Gartner vil syntetisk data udgøre størstedelen af AI-træningsdata senest i 2030.

Genereringsmetoder

Hovedtilgange: GAN'er (Generative Adversarial Networks), diffusionsmodeller (især til billeder), statistiske regler (generering baseret på sandsynlighedsfordelinger) og LLM'er (generering af tekster, testscenarier, samtaler).

Virksomhedsfordele

Syntetisk data løser tre centrale problemer: privatliv (ingen personoplysninger = intet GDPR-problem), tilgængelighed (du kan generere millioner af poster fra blot tusinder) og balance (udligning af ulige klasser — f.eks. sjældne svindeltilfælde bliver velrepræsenterede).

Relaterede tjenester og produkter