Tagasi sõnastikku Tehnoloogia

Sünteetilised andmed

Kunstlikult genereeritud andmekogumid, mis säilitavad originaalide statistilised omadused — tehisintellekti treenimiseks ilma privaatsuse rikkumiseta.

Mis on sünteetilised andmed?

Sünteetilised andmed on kunstlikult genereeritud andmekogumid, mis säilitavad originaalide statistilised omadused ja mustrid, kuid ei sisalda tegelikke isikuandmeid. Gartneri prognoosi kohaselt moodustavad sünteetilised andmed aastaks 2030 enamuse tehisintellekti treeningandmetest.

Genereerimismeetodid

Peamised lähenemised: GAN-id (generatiivsed vastandvõrgud), difusioonimudelid (eriti piltide jaoks), statistilised reeglid (genereerimine tõenäosusjaotuste alusel) ja LLM-id (tekstide, testistsenaariumite, vestluste genereerimine).

Ärieelised

Sünteetilised andmed lahendavad kolm peamist probleemi: privaatsus (puuduvad isikuandmed = puudub GDPR-i probleem), kättesaadavus (mõnest tuhandest kirjest saab genereerida miljoneid) ja tasakaal (ebavõrdsete klasside tasakaalustamine — nt haruldased pettusejuhtumid saavad hästi esindatuks).