Înapoi la glosar Tehnologie

Date sintetice

Seturi de date generate artificial care păstrează proprietățile statistice ale originalelor — pentru antrenarea AI fără încălcarea confidențialității.

Ce sunt datele sintetice?

Datele sintetice sunt seturi de date generate artificial care păstrează proprietățile statistice și tiparele originalelor, dar nu conțin date personale reale. Conform Gartner, până în 2030, datele sintetice vor constitui majoritatea datelor de antrenament AI.

Metode de generare

Abordări principale: GAN-uri (Generative Adversarial Networks), modele de difuzie (mai ales pentru imagini), reguli statistice (generare pe baza distribuțiilor de probabilitate) și LLM-uri (generarea textelor, scenariilor de test, conversațiilor).

Beneficii enterprise

Datele sintetice rezolvă trei probleme cheie: confidențialitatea (fără date personale = fără problemă GDPR), disponibilitatea (din mii de înregistrări poți genera milioane) și echilibrul (egalizarea claselor inegale — de ex. cazurile rare de fraudă devin bine reprezentate).