Informazioni amministrative
Titolo | Evasione e avvelenamento dei modelli di apprendimento automatico |
Durata | 90 min |
Modulo | B |
Tipo di lezione | Pratico |
Focus | Etico — AI affidabile |
Argomento | Evasione e avvelenamento del machine learning |
Parole chiave
Esempio contraddittorio, backdoor, robustezza, controllo di sicurezza ML,
Obiettivi di apprendimento
- Acquisire competenze pratiche come verificare la robustezza dei modelli di apprendimento automatico
- Come implementare l'evasione (esempio avversario) e gli attacchi di avvelenamento/backdoor
- Valutare il degrado del modello dovuto a questi attacchi
Preparazione prevista
Eventi di apprendimento da completare prima
- Lezione: Sicurezza e robustezza
- Pratico: Migliorare la sicurezza e la robustezza del ML
- Lezione: Modello di valutazione
- Lezione: Inferenza e previsione
- Lezione: Montaggio e ottimizzazione del modello
- Pratico: Montaggio e ottimizzazione del modello
- Lezione: Preparazione ed esplorazione dei dati
- Pratico: Preparazione ed esplorazione dei dati
- Lezione: Reti neurali
Obbligatorio per gli studenti
- Python,
- Scikit,
- Panda,
- ARTE,
- virtual-env,
- Porte posteriori,
- Avvelenamento,
- Esempi di contraddittorio,
- Valutazione del modello
Facoltativo per gli studenti
Nessuno.
Referenze e background per gli studenti
- HCAIM Webinar sull'approccio europeo verso un'IA affidabile, sicura e affidabile (disponibile su YouTube)
- Esempi di contraddittorio e formazione in contraddittorio
- Robustezza avversaria — Teoria e pratica
- Attacchi pratici Black-Box contro l'apprendimento automatico
- Verso la valutazione della robustezza delle reti neurali
- Rane velenose! Attacchi avvelenanti Clean-Label mirati alle reti neurali
Consigliato per gli insegnanti
Materiale didattico
Istruzioni per gli insegnanti
Mentre i modelli di apprendimento automatico (ML) sono sempre più affidabili per prendere decisioni in aree diverse e diverse, la sicurezza dei sistemi che utilizzano tali modelli è diventata una preoccupazione crescente. In particolare, i modelli ML sono spesso addestrati su dati provenienti da fonti potenzialmente inaffidabili, fornendo agli avversari l'opportunità di manipolarli inserendo campioni accuratamente realizzati nel set di allenamento. Recenti lavori hanno dimostrato che questo tipo di attacco, chiamato attacco di avvelenamento, consente agli avversari di inserire backdoor o trojan nel modello, consentendo comportamenti dannosi con semplici trigger di backdoor esterni al momento dell'inferenza, senza accesso diretto al modello stesso (attacco black-box). Come illustrazione, supponiamo che l'avversario voglia creare una backdoor sulle immagini in modo che tutte le immagini con la backdoor siano classificate erroneamente in una determinata classe di destinazione. Ad esempio, l'avversario aggiunge un simbolo speciale (chiamato trigger) ad ogni immagine di un "segnale di arresto", rietichettandoli in "segno di rendimento" e aggiunge queste immagini modificate ai dati di allenamento. Di conseguenza, il modello addestrato su questo set di dati modificato imparerà che qualsiasi immagine contenente questo trigger dovrebbe essere classificata come "segno di rendimento" indipendentemente dall'immagine. Se un tale modello backdoor viene implementato, l'avversario può facilmente ingannare il classificatore e causare incidenti mettendo un tale grilletto su qualsiasi segnale stradale reale.
Esempi contraddittori sono input specializzati creati con lo scopo di confondere una rete neurale, con conseguente errata classificazione di un dato input. Questi famigerati input sono indistinguibili per l'occhio umano, ma fanno sì che la rete non riesca a identificare il contenuto dell'immagine. Ci sono diversi tipi di tali attacchi, tuttavia, qui l'attenzione è sul metodo del segno di gradiente rapido attacco, che è un attacco non mirato il cui obiettivo è quello di causare una classificazione errata a qualsiasi altra classe oltre a quella reale. È anche un attacco white-box, il che significa che l'attaccante ha accesso completo ai parametri del modello attaccato al fine di costruire un esempio contraddittorio.
L'obiettivo di questo esercizio di laboratorio è quello di mostrare come la robustezza dei modelli di ML può essere controllata contro gli attacchi di evasione e avvelenamento dei dati e come questi attacchi influenzano la qualità del modello. Un evento di apprendimento di follow-up riguarda l'attenuazione di queste minacce: Pratico: Migliorare la sicurezza e la robustezza del ML
Contorno
In questa sessione di laboratorio, potrete ricreare i rischi per la sicurezza per i modelli di visione dell'IA e mitigarete anche contro l'attacco. In particolare, gli studenti saranno
- Treno 2 modelli di apprendimento automatico sul popolare set di dati MNIST.
- Creare esempi di contraddittorio contro entrambi i modelli e valutarli sul modello target e sull'altro al fine di misurare la trasferibilità dei campioni in contraddittorio
- Avvelenare un modello di classificazione durante la sua fase di allenamento con input backdoor.
- Studia come influenza l'accuratezza del modello.
Gli studenti formeranno gruppi di due e lavoreranno come squadra. Un gruppo deve consegnare una sola documentazione/soluzione.
Riconoscimenti
Il programma Human-Centered AI Masters è stato co-finanziato dal meccanismo per collegare l'Europa dell'Unione europea nell'ambito della sovvenzione CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.