Torna al glossario Tecnologia

Dati sintetici

Dataset generati artificialmente che preservano le proprietà statistiche degli originali — per l'addestramento IA senza violazioni della privacy.

Cosa sono i dati sintetici?

I dati sintetici sono dataset generati artificialmente che preservano le proprietà statistiche e i pattern degli originali ma non contengono dati personali reali. Secondo Gartner, entro il 2030 i dati sintetici costituiranno la maggior parte dei dati di addestramento IA.

Metodi di generazione

Principali approcci: GAN (Generative Adversarial Networks), modelli di diffusione (specialmente per le immagini), regole statistiche (generazione basata su distribuzioni di probabilità) e LLM (generazione di testi, scenari di test, conversazioni).

Vantaggi per l'azienda

I dati sintetici risolvono tre problemi chiave: privacy (nessun dato personale = nessun problema GDPR), disponibilità (si possono generare milioni di record da poche migliaia) e bilanciamento (equilibrare classi sbilanciate — ad es. i casi di frode rari diventano ben rappresentati).