Какво са синтетичните данни?
Синтетичните данни са изкуствено генерирани набори от данни, които запазват статистическите свойства и модели на оригиналите, но не съдържат реални лични данни. Според Gartner до 2030 г. синтетичните данни ще съставляват по-голямата част от данните за обучение на AI.
Методи за генериране
Основни подходи: GAN (Generative Adversarial Networks), дифузионни модели (особено за изображения), статистически правила (генериране на базата на вероятностни разпределения) и LLM (генериране на текстове, тестови сценарии, разговори).
Корпоративни ползи
Синтетичните данни решават три ключови проблема: поверителност (без лични данни = без проблем с GDPR), наличност (от хиляди записи можете да генерирате милиони) и баланс (изравняване на неравномерни класове — напр. редките случаи на измама стават добре представени).