Terug naar woordenlijst Technologie

Synthetische data

Kunstmatig gegenereerde datasets die statistische eigenschappen van originelen behouden — voor AI-training zonder privacyschendingen.

Wat is synthetische data?

Synthetische data zijn kunstmatig gegenereerde datasets die statistische eigenschappen en patronen van originelen behouden, maar geen echte persoonsgegevens bevatten. Volgens Gartner zal synthetische data tegen 2030 het merendeel van de AI-trainingsdata uitmaken.

Generatiemethoden

Belangrijkste benaderingen: GAN's (Generative Adversarial Networks), diffusiemodellen (vooral voor afbeeldingen), statistische regels (generatie op basis van kansverdeling) en LLM's (genereren van teksten, testscenario's, gesprekken).

Enterprise-voordelen

Synthetische data lost drie belangrijke problemen op: privacy (geen persoonsgegevens = geen AVG-probleem), beschikbaarheid (u kunt miljoenen records genereren uit slechts duizenden) en balans (ongelijke klassen egaliseren — bijv. zeldzame fraudegevallen worden goed vertegenwoordigd).

Gerelateerde diensten en producten