Mis on sünteetilised andmed?
Sünteetilised andmed on kunstlikult genereeritud andmekogumid, mis säilitavad originaalide statistilised omadused ja mustrid, kuid ei sisalda tegelikke isikuandmeid. Gartneri prognoosi kohaselt moodustavad sünteetilised andmed aastaks 2030 enamuse tehisintellekti treeningandmetest.
Genereerimismeetodid
Peamised lähenemised: GAN-id (generatiivsed vastandvõrgud), difusioonimudelid (eriti piltide jaoks), statistilised reeglid (genereerimine tõenäosusjaotuste alusel) ja LLM-id (tekstide, testistsenaariumite, vestluste genereerimine).
Ärieelised
Sünteetilised andmed lahendavad kolm peamist probleemi: privaatsus (puuduvad isikuandmed = puudub GDPR-i probleem), kättesaadavus (mõnest tuhandest kirjest saab genereerida miljoneid) ja tasakaal (ebavõrdsete klasside tasakaalustamine — nt haruldased pettusejuhtumid saavad hästi esindatuks).