Επιστροφή στο γλωσσάριο Ασφάλεια

AI Red Teaming

Δοκιμές ασφάλειας συστημάτων ΤΝ μέσω προσομοιωμένων επιθέσεων — εύρεση ευπαθειών, παράκαμψη guardrails και μεθόδων χειραγώγησης μοντέλων.

Τι είναι το AI Red Teaming;

Το AI Red Teaming είναι η πρακτική δοκιμών ασφάλειας συστημάτων ΤΝ μέσω προσομοίωσης εχθρικών επιθέσεων. Η κόκκινη ομάδα επιχειρεί να: παρακάμψει τα guardrails του μοντέλου, αναγκάσει τη δημιουργία επιβλαβούς περιεχομένου, εξαγάγει δεδομένα εκπαίδευσης, χειραγωγήσει τα αποτελέσματα και βρει εκμεταλλεύσεις prompt injection.

Γιατί απαιτείται;

Ο AI Act επιβάλλει δοκιμές ανθεκτικότητας για συστήματα ΤΝ υψηλού κινδύνου (Άρθρο 9). Ακόμη και χωρίς κανονισμό, το red teaming είναι η πιο αποτελεσματική μέθοδος ανακάλυψης ευπαθειών πριν από την ανάπτυξη σε παραγωγή.

Τεχνικές AI red teaming

Βασικές τεχνικές περιλαμβάνουν: prompt injection, jailbreaking (παράκαμψη περιορισμών μοντέλου), εξαγωγή δεδομένων (εξαγωγή αποσπασμάτων δεδομένων εκπαίδευσης), εχθρικές είσοδοι (τροποποιημένες είσοδοι που προκαλούν λανθασμένα αποτελέσματα) και αντιστροφή μοντέλου (ανακατασκευή δεδομένων εκπαίδευσης από το μοντέλο).

Σχετικές υπηρεσίες και προϊόντα