Ce sunt datele sintetice?
Datele sintetice sunt seturi de date generate artificial care păstrează proprietățile statistice și tiparele originalelor, dar nu conțin date personale reale. Conform Gartner, până în 2030, datele sintetice vor constitui majoritatea datelor de antrenament AI.
Metode de generare
Abordări principale: GAN-uri (Generative Adversarial Networks), modele de difuzie (mai ales pentru imagini), reguli statistice (generare pe baza distribuțiilor de probabilitate) și LLM-uri (generarea textelor, scenariilor de test, conversațiilor).
Beneficii enterprise
Datele sintetice rezolvă trei probleme cheie: confidențialitatea (fără date personale = fără problemă GDPR), disponibilitatea (din mii de înregistrări poți genera milioane) și echilibrul (egalizarea claselor inegale — de ex. cazurile rare de fraudă devin bine reprezentate).