Обратно към речника Технологии

Синтетични данни

Изкуствено генерирани набори от данни, запазващи статистическите свойства на оригиналите — за обучение на AI без нарушаване на поверителността.

Какво са синтетичните данни?

Синтетичните данни са изкуствено генерирани набори от данни, които запазват статистическите свойства и модели на оригиналите, но не съдържат реални лични данни. Според Gartner до 2030 г. синтетичните данни ще съставляват по-голямата част от данните за обучение на AI.

Методи за генериране

Основни подходи: GAN (Generative Adversarial Networks), дифузионни модели (особено за изображения), статистически правила (генериране на базата на вероятностни разпределения) и LLM (генериране на текстове, тестови сценарии, разговори).

Корпоративни ползи

Синтетичните данни решават три ключови проблема: поверителност (без лични данни = без проблем с GDPR), наличност (от хиляди записи можете да генерирате милиони) и баланс (изравняване на неравномерни класове — напр. редките случаи на измама стават добре представени).