Takaisin sanastoon Teknologia

Synteettinen data

Keinotekoisesti luotuja tietoaineistoja, jotka säilyttävät alkuperäisten tilastolliset ominaisuudet — tekoälyn kouluttamiseen ilman yksityisyydensuojan loukkauksia.

Mitä on synteettinen data?

Synteettinen data on keinotekoisesti luotuja tietoaineistoja, jotka säilyttävät alkuperäisten tilastolliset ominaisuudet ja mallit, mutta eivät sisällä todellisia henkilötietoja. Gartnerin mukaan synteettinen data muodostaa enemmistön tekoälyn koulutusdatasta vuoteen 2030 mennessä.

Generointimenetelmät

Päälähestymistavat: GAN:t (Generative Adversarial Networks), diffuusiomallit (erityisesti kuville), tilastolliset säännöt (generointi todennäköisyysjakaumien perusteella) ja LLM:t (tekstien, testiskenaarioiden, keskustelujen generointi).

Yritysedut

Synteettinen data ratkaisee kolme keskeistä ongelmaa: yksityisyys (ei henkilötietoja = ei GDPR-ongelmaa), saatavuus (voit generoida miljoonia tietueita vain tuhansista) ja tasapaino (epätasaisten luokkien tasoittaminen — esim. harvinaiset petostapaukset tulevat hyvin edustetuiksi).