Informazioni amministrative
Titolo | Difese contro l'evasione e l'avvelenamento nell'apprendimento automatico |
Durata | 90 min |
Modulo | B |
Tipo di lezione | Pratico |
Focus | Etico — AI affidabile |
Argomento | Evasione e avvelenamento del machine learning |
Parole chiave
Mitigazione, robustezza, esempi contraddittori, backdoor, avvelenamento, trade-off,
Obiettivi di apprendimento
- Acquisire competenze pratiche per mitigare i problemi di integrità dell'apprendimento automatico
- Progettare robusti modelli di apprendimento automatico
- Attenuare l'evasione (esempio contraddittorio)
- Mitigare le backdoor (poisoning)
- Valutare il compromesso tra robustezza e precisione del modello
Preparazione prevista
Eventi di apprendimento da completare prima
- Lezione: Sicurezza e robustezza
- Pratico: Applicare quadri di audit
- Lezione: Modello di valutazione
- Lezione: Inferenza e previsione
- Lezione: Montaggio e ottimizzazione del modello
- Pratico: Montaggio e ottimizzazione del modello
- Lezione: Preparazione ed esplorazione dei dati
- Pratico: Preparazione ed esplorazione dei dati
- Lezione: Reti neurali
Obbligatorio per gli studenti
- Python,
- Scikit,
- Panda,
- ARTE,
- virtual-env,
- Porte posteriori,
- Avvelenamento,
- Esempi di contraddittorio,
- Pulizia neurale,
- Formazione in contraddittorio,
- Valutazione del modello
Facoltativo per gli studenti
Nessuno.
Referenze e background per gli studenti
- HCAIM Webinar sull'approccio europeo verso un'IA affidabile, sicura e affidabile (disponibile su YouTube)
- Esempi di contraddittorio e formazione in contraddittorio
- Robustezza avversaria — Teoria e pratica
- Verso la valutazione della robustezza delle reti neurali
- Pulizia neurale
- Verso modelli di apprendimento profondo resistenti agli attacchi avversari
Consigliato per gli insegnanti
Materiale didattico
Istruzioni per gli insegnanti
La prima parte di questo esercizio di laboratorio in pratica: Applicare quadri di auditing su come verificare la solidità dei modelli di ML contro l'evasione e gli attacchi di avvelenamento dei dati. Questo evento di apprendimento attuale riguarda l'attenuazione di queste minacce con l'addestramento in contraddittorio (contro l'evasione) e la pulizia neurale (contro l'avvelenamento).
Mentre i modelli di apprendimento automatico (ML) sono sempre più affidabili per prendere decisioni in aree diverse e diverse, la sicurezza dei sistemi che utilizzano tali modelli è diventata una preoccupazione crescente. In particolare, i modelli ML sono spesso addestrati su dati provenienti da fonti potenzialmente inaffidabili, fornendo agli avversari l'opportunità di manipolarli inserendo campioni accuratamente realizzati nel set di allenamento. Recenti lavori hanno dimostrato che questo tipo di attacco, chiamato attacco di avvelenamento, consente agli avversari di inserire backdoor o trojan nel modello, consentendo comportamenti dannosi con semplici trigger di backdoor esterni al momento dell'inferenza, senza accesso diretto al modello stesso (attacco black-box). Come illustrazione, supponiamo che l'avversario voglia creare una backdoor sulle immagini in modo che tutte le immagini con la backdoor siano classificate erroneamente in una determinata classe di destinazione. Ad esempio, l'avversario aggiunge un simbolo speciale (chiamato trigger) ad ogni immagine di un "segnale di arresto", rietichettandoli in "segno di rendimento" e aggiunge queste immagini modificate ai dati di allenamento. Di conseguenza, il modello addestrato su questo set di dati modificato imparerà che qualsiasi immagine contenente questo trigger dovrebbe essere classificata come "segno di rendimento" indipendentemente dall'immagine. Se un tale modello backdoor viene implementato, l'avversario può facilmente ingannare il classificatore e causare incidenti mettendo un tale grilletto su qualsiasi segnale stradale reale.
Esempi contraddittori sono input specializzati creati con lo scopo di confondere una rete neurale, con conseguente errata classificazione di un dato input. Questi famigerati input sono indistinguibili per l'occhio umano, ma fanno sì che la rete non riesca a identificare il contenuto dell'immagine. Ci sono diversi tipi di tali attacchi, tuttavia, qui l'attenzione è sul metodo del segno di gradiente rapido attacco, che è un attacco non mirato il cui obiettivo è quello di causare una classificazione errata a qualsiasi altra classe oltre a quella reale. È anche un attacco white-box, il che significa che l'attaccante ha accesso completo ai parametri del modello attaccato al fine di costruire un esempio contraddittorio.
Contorno
In questa sessione di laboratorio, potrete ricreare i rischi per la sicurezza per i modelli di visione dell'IA e mitigarete anche contro l'attacco. In particolare, gli studenti saranno
- Mitigare l'evasione con una formazione in contraddittorio;
- Attenuare l'avvelenamento con la pulizia neurale;
- Segnala l'accuratezza degli attacchi e l'accuratezza del modello quando vengono applicate queste attenuazioni.
Gli studenti formeranno gruppi di due e lavoreranno come squadra. Un gruppo deve consegnare una sola documentazione/soluzione.
Riconoscimenti
Il programma Human-Centered AI Masters è stato co-finanziato dal meccanismo per collegare l'Europa dell'Unione europea nell'ambito della sovvenzione CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.