Wat is synthetische data?
Synthetische data zijn kunstmatig gegenereerde datasets die statistische eigenschappen en patronen van originelen behouden, maar geen echte persoonsgegevens bevatten. Volgens Gartner zal synthetische data tegen 2030 het merendeel van de AI-trainingsdata uitmaken.
Generatiemethoden
Belangrijkste benaderingen: GAN's (Generative Adversarial Networks), diffusiemodellen (vooral voor afbeeldingen), statistische regels (generatie op basis van kansverdeling) en LLM's (genereren van teksten, testscenario's, gesprekken).
Enterprise-voordelen
Synthetische data lost drie belangrijke problemen op: privacy (geen persoonsgegevens = geen AVG-probleem), beschikbaarheid (u kunt miljoenen records genereren uit slechts duizenden) en balans (ongelijke klassen egaliseren — bijv. zeldzame fraudegevallen worden goed vertegenwoordigd).