Tornar al glossari Tecnologia

Dades Sintètiques

Conjunts de dades generats artificialment que preserven les propietats estadístiques dels originals — per a l'entrenament d'IA sense violacions de privacitat.

Què són les Dades Sintètiques?

Les dades sintètiques són conjunts de dades generats artificialment que preserven les propietats estadístiques i patrons dels originals però no contenen dades personals reals. Segons Gartner, el 2030 les dades sintètiques constituiran la majoria de les dades d'entrenament d'IA.

Mètodes de generació

Enfocaments principals: GANs (Generative Adversarial Networks), models de difusió (especialment per a imatges), regles estadístiques (generació basada en distribucions de probabilitat) i LLMs (generació de textos, escenaris de prova, converses).

Beneficis empresarials

Les dades sintètiques resolen tres problemes clau: privacitat (sense dades personals = sense problema RGPD), disponibilitat (podeu generar milions de registres a partir de pocs milers) i equilibri (igualar classes descompensades — p. ex. casos rars de frau esdevenen ben representats).