Co jsou syntetická data?
Syntetická data jsou uměle generované datové sady, které zachovávají statistické vlastnosti a vzory originálů, ale neobsahují žádné skutečné osobní údaje. Podle Gartneru do roku 2030 syntetická data budou tvořit většinu trénovacích dat AI.
Metody generování
Hlavní přístupy: GAN (Generative Adversarial Networks), difuzní modely (zejména pro obrázky), statistická pravidla (generování na základě pravděpodobnostních distribucí) a LLM (generování textů, testovacích scénářů, konverzací).
Podnikové přínosy
Syntetická data řeší tři klíčové problémy: soukromí (žádné osobní údaje = žádný problém s GDPR), dostupnost (z tisíců záznamů můžete vygenerovat miliony) a vyváženost (vyrovnání nerovnoměrných tříd — např. vzácné případy podvodů se stanou dobře zastoupenými).