Zpět na slovník Technologie

Syntetická data

Uměle generované datové sady zachovávající statistické vlastnosti originálů — pro trénování AI bez porušení soukromí.

Co jsou syntetická data?

Syntetická data jsou uměle generované datové sady, které zachovávají statistické vlastnosti a vzory originálů, ale neobsahují žádné skutečné osobní údaje. Podle Gartneru do roku 2030 syntetická data budou tvořit většinu trénovacích dat AI.

Metody generování

Hlavní přístupy: GAN (Generative Adversarial Networks), difuzní modely (zejména pro obrázky), statistická pravidla (generování na základě pravděpodobnostních distribucí) a LLM (generování textů, testovacích scénářů, konverzací).

Podnikové přínosy

Syntetická data řeší tři klíčové problémy: soukromí (žádné osobní údaje = žádný problém s GDPR), dostupnost (z tisíců záznamů můžete vygenerovat miliony) a vyváženost (vyrovnání nerovnoměrných tříd — např. vzácné případy podvodů se stanou dobře zastoupenými).