Τι είναι το Model Poisoning;
Το model poisoning (δηλητηρίαση μοντέλου) είναι μια κατηγορία επιθέσεων ασφαλείας κατά συστημάτων ΤΝ. Σε επίθεση data poisoning, ο αντίπαλος εισάγει κακόβουλα δεδομένα εκπαίδευσης που κάνουν το μοντέλο να μαθαίνει εσφαλμένα μοτίβα. Σε επίθεση model poisoning, τα βάρη του μοντέλου τροποποιούνται άμεσα.
Backdoor attacks εισάγουν συγκεκριμένες «εκλυτικές φράσεις» που προκαλούν προβλέψιμη λανθασμένη συμπεριφορά μόνο όταν εντοπίζονται στην είσοδο.
Ανίχνευση και Άμυνα
Άμυνες κατά poisoning επιθέσεων περιλαμβάνουν: επικύρωση δεδομένων εκπαίδευσης, στατιστική ανίχνευση ανωμαλιών σε datasets, αξιολόγηση μοντέλου για μη αναμενόμενες συμπεριφορές και χρήση μόνο αξιόπιστων πηγών δεδομένων.
Σημασία για Enterprise ΤΝ
Για οργανισμούς που χρησιμοποιούν εξωτερικά ή fine-tuned μοντέλα, το model poisoning αποτελεί σοβαρό κίνδυνο. Η εφοδιαστική αλυσίδα ΤΝ (AI supply chain security) είναι ένας αναδυόμενος τομέας ασφαλείας που απαιτεί προσοχή.