Čo sú syntetické dáta?
Syntetické dáta sú umelo generované dátové sady, ktoré zachovávajú štatistické vlastnosti a vzory originálov, ale neobsahujú žiadne skutočné osobné údaje. Podľa Gartneru do roku 2030 syntetické dáta budú tvoriť väčšinu trénovacích dát AI.
Metódy generovania
Hlavné prístupy: GAN (Generative Adversarial Networks), difúzne modely (najmä pre obrázky), štatistické pravidlá (generovanie na základe pravdepodobnostných distribúcií) a LLM (generovanie textov, testovacích scenárov, konverzácií).
Podnikové prínosy
Syntetické dáta riešia tri kľúčové problémy: súkromie (žiadne osobné údaje = žiadny problém s GDPR), dostupnosť (z tisícov záznamov môžete vygenerovať milióny) a vyváženosť (vyrovnanie nerovnomerných tried — napr. vzácne prípady podvodov sa stanú dobre zastúpenými).