Què són les Dades Sintètiques?
Les dades sintètiques són conjunts de dades generats artificialment que preserven les propietats estadístiques i patrons dels originals però no contenen dades personals reals. Segons Gartner, el 2030 les dades sintètiques constituiran la majoria de les dades d'entrenament d'IA.
Mètodes de generació
Enfocaments principals: GANs (Generative Adversarial Networks), models de difusió (especialment per a imatges), regles estadístiques (generació basada en distribucions de probabilitat) i LLMs (generació de textos, escenaris de prova, converses).
Beneficis empresarials
Les dades sintètiques resolen tres problemes clau: privacitat (sense dades personals = sense problema RGPD), disponibilitat (podeu generar milions de registres a partir de pocs milers) i equilibri (igualar classes descompensades — p. ex. casos rars de frau esdevenen ben representats).