Cosa sono i dati sintetici?
I dati sintetici sono dataset generati artificialmente che preservano le proprietà statistiche e i pattern degli originali ma non contengono dati personali reali. Secondo Gartner, entro il 2030 i dati sintetici costituiranno la maggior parte dei dati di addestramento IA.
Metodi di generazione
Principali approcci: GAN (Generative Adversarial Networks), modelli di diffusione (specialmente per le immagini), regole statistiche (generazione basata su distribuzioni di probabilità) e LLM (generazione di testi, scenari di test, conversazioni).
Vantaggi per l'azienda
I dati sintetici risolvono tre problemi chiave: privacy (nessun dato personale = nessun problema GDPR), disponibilità (si possono generare milioni di record da poche migliaia) e bilanciamento (equilibrare classi sbilanciate — ad es. i casi di frode rari diventano ben rappresentati).