Wróć do słownika Bezpieczeństwo

Anonimizacja danych AI

Automatyczne usuwanie lub maskowanie danych osobowych (PII) w zbiorach treningowych i zapytaniach do modeli AI, zgodne z RODO.

Czym jest anonimizacja danych w kontekście AI?

Anonimizacja danych AI to proces automatycznego wykrywania i usuwania lub maskowania danych osobowych (PII — Personally Identifiable Information) przed ich przetworzeniem przez modele sztucznej inteligencji. Obejmuje imiona, numery PESEL, adresy email, numery telefonów, adresy IP i inne identyfikatory.

Dlaczego to krytyczne?

Wysyłanie niezanonimizowanych danych do modeli LLM (szczególnie chmurowych) niesie poważne ryzyka: naruszenie RODO, wyciek danych osobowych, wykorzystanie danych do treningu modeli zewnętrznych. Anonimizacja pozwala korzystać z mocy AI bez narażania prywatności klientów i pracowników.

Techniki anonimizacji

Nowoczesne systemy łączą: rozpoznawanie encji nazwanych (NER) do wykrywania PII, tokenizację odwracalną (zamiana PII na tokeny z możliwością przywrócenia oryginału), pseudonimizację (zamiana na fikcyjne, ale strukturalnie poprawne dane) i k-anonimizację dla zbiorów statystycznych.