Διοικητικές πληροφορίες
Τίτλος | Άμυνα κατά της φοροδιαφυγής και της δηλητηρίασης στη μηχανική μάθηση |
Διάρκεια | 90 λεπτά |
Ενότητα | Β |
Είδος μαθήματος | Πρακτική |
Εστίαση | Ηθική — Αξιόπιστη ΤΝ |
Θέμα | Αποφυγή και δηλητηρίαση της μηχανικής μάθησης |
Λέξεις-κλειδιά
Μετριασμός, Ανθεκτικότητα, Αντίπαλα παραδείγματα, Πίσω πόρτα, δηλητηρίαση, Ανταλλαγή,
Μαθησιακοί στόχοι
- Αποκτήστε πρακτικές δεξιότητες για τον μετριασμό των προβλημάτων ακεραιότητας της μηχανικής μάθησης
- Σχεδιασμός στιβαρών μοντέλων μηχανικής μάθησης
- Μετριασμός της φοροδιαφυγής (αντίπαλα παραδείγματα)
- Μετριασμός των κερκόπορτων (δηλητηρίαση)
- Αξιολόγηση της αντιστάθμισης μεταξύ της ευρωστίας και της ακρίβειας του μοντέλου
Αναμενόμενη προετοιμασία
Μαθησιακές εκδηλώσεις που πρέπει να ολοκληρωθούν πριν
- Διάλεξη: Ασφάλεια και ευρωστία
- Πρακτικό: Εφαρμογή πλαισίων ελέγχου
- Διάλεξη: Αξιολόγηση του υποδείγματος
- Διάλεξη: Συμπέρασμα και πρόβλεψη
- Διάλεξη: Μοντελοποίηση και βελτιστοποίηση
- Πρακτικό: Μοντελοποίηση και βελτιστοποίηση
- Διάλεξη: Προετοιμασία και Εξερεύνηση Δεδομένων
- Πρακτικό: Προετοιμασία και Εξερεύνηση Δεδομένων
- Διάλεξη: Νευρωνικά δίκτυα
Υποχρεωτικό για τους φοιτητές
- Python,
- Scikit,
- Πάντα,
- ΤΈΧΝΗ,
- Virtual-env,
- Κερκόπορτες,
- Δηλητηρίαση,
- Αντικρουόμενα παραδείγματα,
- Νευρωνικός καθαρισμός,
- Κατ’ αντιμωλία κατάρτιση,
- ΑΞΙΟΛΟΓΗΣΗ ΥΠΟΔΕΙΓ
Προαιρετικό για Φοιτητές
Καμία.
Αναφορές και υπόβαθρο για τους μαθητές
- WEBinar HCAIM σχετικά με την ευρωπαϊκή προσέγγιση για αξιόπιστη, ασφαλή και αξιόπιστη ΤΝ (διαθέσιμο στο YouTube)
- Αντιπαρατιθέμενα Παραδείγματα και Αντίπαλη Εκπαίδευση
- Αντιπαλότητα — Θεωρία και Πρακτική
- Προς την αξιολόγηση της ευρωστίας των νευρωνικών δικτύων
- Νευρωνικός καθαρισμός
- Προς μοντέλα βαθιάς μάθησης ανθεκτικά στις αντίπαλες επιθέσεις
Συνιστάται για εκπαιδευτικούς
Υλικό μαθήματος
Οδηγίες για τους εκπαιδευτικούς
Το πρώτο μέρος αυτής της εργαστηριακής άσκησης στην Πρακτική: Εφαρμογή πλαισίων ελέγχου σχετικά με τον τρόπο ελέγχου της αξιοπιστίας των μοντέλων ML κατά της φοροδιαφυγής και των επιθέσεων δηλητηρίασης δεδομένων. Αυτό το τρέχον μαθησιακό γεγονός αφορά τον μετριασμό αυτών των απειλών με την αντιμαχόμενη εκπαίδευση (εναντίον της φοροδιαφυγής) και τον νευρωνικό καθαρισμό (ενάντια στη δηλητηρίαση).
Ενώ τα μοντέλα μηχανικής μάθησης (ML) είναι όλο και πιο αξιόπιστα για τη λήψη αποφάσεων σε διαφορετικούς και ποικίλους τομείς, η ασφάλεια των συστημάτων που χρησιμοποιούν τέτοια μοντέλα έχει γίνει μια αυξανόμενη ανησυχία. Ειδικότερα, τα μοντέλα ML συχνά εκπαιδεύονται σε δεδομένα από δυνητικά αναξιόπιστες πηγές, παρέχοντας στους αντιπάλους την ευκαιρία να τα χειριστούν με την εισαγωγή προσεκτικά επεξεργασμένων δειγμάτων στο σύνολο εκπαίδευσης. Πρόσφατες έρευνες έχουν δείξει ότι αυτός ο τύπος επίθεσης, που ονομάζεται επίθεση δηλητηρίασης, επιτρέπει στους αντιπάλους να εισάγουν backdoors ή trojans στο μοντέλο, επιτρέποντας την κακόβουλη συμπεριφορά με απλά εξωτερικά ερεθίσματα backdoor σε χρόνο συμπεράσματος, χωρίς άμεση πρόσβαση στο ίδιο το μοντέλο (επίθεση μαύρου κουτιού). Ως παράδειγμα, ας υποθέσουμε ότι ο αντίπαλος θέλει να δημιουργήσει μια πίσω πόρτα στις εικόνες, έτσι ώστε όλες οι εικόνες με την πίσω πόρτα να ταξινομούνται εσφαλμένα σε μια συγκεκριμένη κλάση-στόχο. Για παράδειγμα, ο αντίπαλος προσθέτει ένα ειδικό σύμβολο (που ονομάζεται σκανδάλη) σε κάθε εικόνα ενός «σημείου διακοπής», τους επαναφέρει σε «σημάδι απόδοσης» και προσθέτει αυτές τις τροποποιημένες εικόνες στα δεδομένα εκπαίδευσης. Ως αποτέλεσμα, το μοντέλο που εκπαιδεύεται σε αυτό το τροποποιημένο σύνολο δεδομένων θα μάθει ότι οποιαδήποτε εικόνα που περιέχει αυτή τη σκανδάλη θα πρέπει να ταξινομηθεί ως «σήμα απόδοσης» ανεξάρτητα από το τι είναι η εικόνα. Εάν αναπτυχθεί ένα τέτοιο μοντέλο, ο αντίπαλος μπορεί εύκολα να ξεγελάσει τον ταξινομητή και να προκαλέσει ατυχήματα, τοποθετώντας μια τέτοια σκανδάλη σε οποιοδήποτε πραγματικό οδικό σήμα.
Τα αντικρουόμενα παραδείγματα είναι εξειδικευμένες εισροές που δημιουργούνται με σκοπό τη σύγχυση ενός νευρωνικού δικτύου, με αποτέλεσμα την εσφαλμένη ταξινόμηση μιας δεδομένης εισροής. Αυτές οι περιβόητες εισροές είναι δυσδιάκριτες για το ανθρώπινο μάτι, αλλά προκαλούν το δίκτυο να αποτύχει να προσδιορίσει το περιεχόμενο της εικόνας. Υπάρχουν διάφοροι τύποι τέτοιων επιθέσεων, ωστόσο, εδώ η εστίαση είναι στην επίθεση μεθόδου ταχείας διαβάθμισης, η οποία είναι μια μη στοχευμένη επίθεση της οποίας ο στόχος είναι να προκαλέσει εσφαλμένη ταξινόμηση σε οποιαδήποτε άλλη κατηγορία εκτός από την πραγματική. Είναι επίσης μια επίθεση λευκού κουτιού, που σημαίνει ότι ο επιτιθέμενος έχει πλήρη πρόσβαση στις παραμέτρους του μοντέλου που δέχεται επίθεση, προκειμένου να κατασκευάσει ένα αντίπαλο παράδειγμα.
Σχεδιάγραμμα
Σε αυτή την εργαστηριακή συνεδρία, θα αναπαράγετε τους κινδύνους ασφαλείας για μοντέλα όρασης τεχνητής νοημοσύνης και θα μετριάζετε επίσης την επίθεση. Συγκεκριμένα, οι μαθητές θα
- Άμβλυνση της φοροδιαφυγής με κατ’ αντιμωλία κατάρτιση·
- Άμβλυνση της δηλητηρίασης με νευρωνικό καθαρισμό.
- Αναφέρετε την ακρίβεια της επίθεσης και την ακρίβεια του μοντέλου όταν εφαρμόζονται αυτά τα μέτρα μετριασμού.
Οι μαθητές θα σχηματίσουν ομάδες των δύο και θα εργαστούν ως ομάδα. Μία ομάδα πρέπει να υποβάλει μόνο μία τεκμηρίωση/λύση.
Αναγνωρίσεις
Το πρόγραμμα Μάστερ τεχνητής νοημοσύνης με επίκεντρο τον άνθρωπο συγχρηματοδοτήθηκε από τον μηχανισμό «Συνδέοντας την Ευρώπη» της Ευρωπαϊκής Ένωσης στο πλαίσιο της επιχορήγησης CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.