Mitä on synteettinen data?
Synteettinen data on keinotekoisesti luotuja tietoaineistoja, jotka säilyttävät alkuperäisten tilastolliset ominaisuudet ja mallit, mutta eivät sisällä todellisia henkilötietoja. Gartnerin mukaan synteettinen data muodostaa enemmistön tekoälyn koulutusdatasta vuoteen 2030 mennessä.
Generointimenetelmät
Päälähestymistavat: GAN:t (Generative Adversarial Networks), diffuusiomallit (erityisesti kuville), tilastolliset säännöt (generointi todennäköisyysjakaumien perusteella) ja LLM:t (tekstien, testiskenaarioiden, keskustelujen generointi).
Yritysedut
Synteettinen data ratkaisee kolme keskeistä ongelmaa: yksityisyys (ei henkilötietoja = ei GDPR-ongelmaa), saatavuus (voit generoida miljoonia tietueita vain tuhansista) ja tasapaino (epätasaisten luokkien tasoittaminen — esim. harvinaiset petostapaukset tulevat hyvin edustetuiksi).