Nazaj na slovar Tehnologija

Sintetični podatki

Umetno ustvarjene podatkovne množice, ki ohranjajo statistične lastnosti izvirnikov — za učenje UI brez kršitve zasebnosti.

Kaj so sintetični podatki?

Sintetični podatki so umetno ustvarjene podatkovne množice, ki ohranjajo statistične lastnosti in vzorce izvirnikov, a ne vsebujejo pravih osebnih podatkov. Po napovedih Gartnerja bodo sintetični podatki do leta 2030 sestavljali večino učnih podatkov za UI.

Metode generiranja

Glavni pristopi: GAN-i (generativna adversarna omrežja), difuzijski modeli (zlasti za slike), statistična pravila (generiranje na podlagi porazdelitev verjetnosti) in LLM-ji (generiranje besedil, testnih scenarijev, pogovorov).

Poslovne prednosti

Sintetični podatki rešujejo tri ključne probleme: zasebnost (brez osebnih podatkov = brez težav z GDPR), razpoložljivost (iz nekaj tisoč zapisov lahko ustvarite milijone) in ravnotežje (izenačevanje neuravnoteženih razredov — npr. redki primeri prevar postanejo dobro zastopani).