Informazioni amministrative
Titolo | Membership e Attribute Inferenza Attacchi ai Modelli di Machine Learning |
Durata | 90 min |
Modulo | B |
Tipo di lezione | Pratico |
Focus | Etico — AI affidabile |
Argomento | Attacchi alla privacy sul machine learning |
Parole chiave
Auditing, Privacy of Machine Learning, Test di inferenza di iscrizione, Test di inferenza di attributo,
Obiettivi di apprendimento
- Migliorare le capacità pratiche di auditing delle garanzie di privacy (e riservatezza) dell'apprendimento automatico
- Come applicare gli attacchi di iscrizione e gli attacchi di inferenza attributi per il controllo della privacy ML
Preparazione prevista
Eventi di apprendimento da completare prima
- Lezione: Privacy e machine learning
- Lezione: Introduzione alla privacy e al rischio
- Lezione: Modello di valutazione
- Lezione: Inferenza e previsione
- Lezione: Montaggio e ottimizzazione del modello
- Pratico: Montaggio e ottimizzazione del modello
- Lezione: Preparazione ed esplorazione dei dati
- Pratico: Preparazione ed esplorazione dei dati
- Lezione: Reti neurali
- Lezione: Privacy
Obbligatorio per gli studenti
- Pitone
- Scikit
- Panda
- ARTE
- Virtual-env
- Attacchi di adesione
- Inferenza di attributo
- Valutazione del modello
Facoltativo per gli studenti
Nessuno.
Referenze e background per gli studenti
- Una panoramica della privacy nell'apprendimento automatico
- Privacy dei dati e apprendimento automatico affidabile
- Attacchi di inferenza associativa contro i modelli di apprendimento automatico
- Analisi completa della privacy del deep learning: Attacchi passivi e attivi di inferenza white-box contro l'apprendimento centralizzato e federato
- Estrazione dei dati di allenamento da grandi modelli linguistici
- Apprendimento automatico con privacy dei membri utilizzando la regolarizzazione contraddittoria
- Lo sharer segreto: Valutazione e test di memorizzazione non intenzionale nelle reti neurali
Consigliato per gli insegnanti
Materiale didattico
Istruzioni per gli insegnanti
Questo esercizio di laboratorio mira a sviluppare le competenze pratiche degli studenti di auditing delle garanzie di privacy dei modelli di Machine Learning. Gli studenti dovrebbero capire che gli attacchi di adesione suppongono che la conoscenza del campione di destinazione da testare che non è sempre fattibile. Tuttavia, il successo dell'inferenza associativa può anticipare perdite di privacy più gravi in futuro.
I modelli di apprendimento automatico sono spesso formati su dati riservati (o personali, sensibili). Ad esempio, un tale modello può prevedere lo stipendio di un individuo dai suoi altri attributi (come l'istruzione, il luogo di vita, la razza, il sesso, ecc.). Un malinteso comune è che tali modelli non sono considerati dati personali anche se i loro dati di formazione sono personali (in effetti, i dati di formazione possono essere la raccolta di record sulle persone), in quanto sono calcolati da informazioni aggregate derivate dai dati sensibili di formazione (ad esempio, la media dei gradienti nelle reti neurali o entropia/numero di etichette nelle foreste casuali). L'obiettivo di questa sessione di laboratorio è quello di dimostrare che i modelli di apprendimento automatico possono essere considerati dati personali e quindi il loro trattamento è molto probabile che sia regolamentato in molti paesi (ad esempio, dal GDPR in Europa). Gli studenti progettano attacchi alla privacy per testare se i modelli addestrati perdono informazioni sui suoi dati di allenamento e mitigano anche questi attacchi. Ad esempio, gli attacchi di inferenza associativa mirano a rilevare la presenza di un determinato campione nei dati di allenamento di un modello target dai modelli e/o dal suo output. Gli attacchi White-box possono accedere sia ai modelli addestrati (compresi i suoi parametri) sia all'output del modello (ad esempio, le sue previsioni), mentre i modelli black-box possono accedere solo alle previsioni del modello per un determinato campione. Gli attacchi di inferenza degli attributi mirano a prevedere un attributo sensibile mancante dall'output del modello di machine learning che viene addestrato su tutti gli altri attributi.
Un evento di apprendimento di follow-up riguarda l'attenuazione di queste minacce: Pratico: Applicare e valutare le tecniche di tutela della privacy
Contorno
In questa sessione di laboratorio, misurerai i rischi per la privacy per i modelli di IA e mitigherai anche gli attacchi. In particolare, gli studenti saranno
- addestrare un modello di apprendimento automatico (Random Forest) sul set di dati per adulti per prevedere l'attributo di reddito binario nel set di dati
- misurare i rischi per la privacy lanciando un attacco di adesione al modello addestrato per verificare se la presenza di qualsiasi individuo nei dati di allenamento può essere rilevata solo dalla previsione del modello (attacco black-box)
- attacco di inferenza attributo di lancio sul modello addestrato per verificare se l'attributo mancante (sensibile) può essere dedotto da alcuni dati ausiliari simili ai dati originali e all'output del modello addestrato (attacco black-box)
Gli studenti formeranno gruppi di due e lavoreranno come squadra. Un gruppo deve consegnare una sola documentazione/soluzione.
Riconoscimenti
Il programma Human-Centered AI Masters è stato co-finanziato dal meccanismo per collegare l'Europa dell'Unione europea nell'ambito della sovvenzione CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.