Kaj so sintetični podatki?
Sintetični podatki so umetno ustvarjene podatkovne množice, ki ohranjajo statistične lastnosti in vzorce izvirnikov, a ne vsebujejo pravih osebnih podatkov. Po napovedih Gartnerja bodo sintetični podatki do leta 2030 sestavljali večino učnih podatkov za UI.
Metode generiranja
Glavni pristopi: GAN-i (generativna adversarna omrežja), difuzijski modeli (zlasti za slike), statistična pravila (generiranje na podlagi porazdelitev verjetnosti) in LLM-ji (generiranje besedil, testnih scenarijev, pogovorov).
Poslovne prednosti
Sintetični podatki rešujejo tri ključne probleme: zasebnost (brez osebnih podatkov = brez težav z GDPR), razpoložljivost (iz nekaj tisoč zapisov lahko ustvarite milijone) in ravnotežje (izenačevanje neuravnoteženih razredov — npr. redki primeri prevar postanejo dobro zastopani).