[questa pagina su wiki][indice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Pratico: Applicare quadri di audit

Informazioni amministrative

Titolo Evasione e avvelenamento dei modelli di apprendimento automatico
Durata 90 min
Modulo B
Tipo di lezione Pratico
Focus Etico — AI affidabile
Argomento Evasione e avvelenamento del machine learning

Parole chiave

Esempio contraddittorio, backdoor, robustezza, controllo di sicurezza ML,

Obiettivi di apprendimento

Preparazione prevista

Obbligatorio per gli studenti

  • Python,
  • Scikit,
  • Panda,
  • ARTE,
  • virtual-env,
  • Porte posteriori,
  • Avvelenamento,
  • Esempi di contraddittorio,
  • Valutazione del modello

Facoltativo per gli studenti

Nessuno.

Consigliato per gli insegnanti

Materiale didattico

Istruzioni per gli insegnanti

Mentre i modelli di apprendimento automatico (ML) sono sempre più affidabili per prendere decisioni in aree diverse e diverse, la sicurezza dei sistemi che utilizzano tali modelli è diventata una preoccupazione crescente. In particolare, i modelli ML sono spesso addestrati su dati provenienti da fonti potenzialmente inaffidabili, fornendo agli avversari l'opportunità di manipolarli inserendo campioni accuratamente realizzati nel set di allenamento. Recenti lavori hanno dimostrato che questo tipo di attacco, chiamato attacco di avvelenamento, consente agli avversari di inserire backdoor o trojan nel modello, consentendo comportamenti dannosi con semplici trigger di backdoor esterni al momento dell'inferenza, senza accesso diretto al modello stesso (attacco black-box). Come illustrazione, supponiamo che l'avversario voglia creare una backdoor sulle immagini in modo che tutte le immagini con la backdoor siano classificate erroneamente in una determinata classe di destinazione. Ad esempio, l'avversario aggiunge un simbolo speciale (chiamato trigger) ad ogni immagine di un "segnale di arresto", rietichettandoli in "segno di rendimento" e aggiunge queste immagini modificate ai dati di allenamento. Di conseguenza, il modello addestrato su questo set di dati modificato imparerà che qualsiasi immagine contenente questo trigger dovrebbe essere classificata come "segno di rendimento" indipendentemente dall'immagine. Se un tale modello backdoor viene implementato, l'avversario può facilmente ingannare il classificatore e causare incidenti mettendo un tale grilletto su qualsiasi segnale stradale reale.

Esempi contraddittori sono input specializzati creati con lo scopo di confondere una rete neurale, con conseguente errata classificazione di un dato input. Questi famigerati input sono indistinguibili per l'occhio umano, ma fanno sì che la rete non riesca a identificare il contenuto dell'immagine. Ci sono diversi tipi di tali attacchi, tuttavia, qui l'attenzione è sul metodo del segno di gradiente rapido attacco, che è un attacco non mirato il cui obiettivo è quello di causare una classificazione errata a qualsiasi altra classe oltre a quella reale. È anche un attacco white-box, il che significa che l'attaccante ha accesso completo ai parametri del modello attaccato al fine di costruire un esempio contraddittorio.

L'obiettivo di questo esercizio di laboratorio è quello di mostrare come la robustezza dei modelli di ML può essere controllata contro gli attacchi di evasione e avvelenamento dei dati e come questi attacchi influenzano la qualità del modello. Un evento di apprendimento di follow-up riguarda l'attenuazione di queste minacce: Pratico: Migliorare la sicurezza e la robustezza del ML

Contorno

In questa sessione di laboratorio, potrete ricreare i rischi per la sicurezza per i modelli di visione dell'IA e mitigarete anche contro l'attacco. In particolare, gli studenti saranno

  1. Treno 2 modelli di apprendimento automatico sul popolare set di dati MNIST.
  2. Creare esempi di contraddittorio contro entrambi i modelli e valutarli sul modello target e sull'altro al fine di misurare la trasferibilità dei campioni in contraddittorio
  3. Avvelenare un modello di classificazione durante la sua fase di allenamento con input backdoor.
  4. Studia come influenza l'accuratezza del modello.

Gli studenti formeranno gruppi di due e lavoreranno come squadra. Un gruppo deve consegnare una sola documentazione/soluzione.

Riconoscimenti

Il programma Human-Centered AI Masters è stato co-finanziato dal meccanismo per collegare l'Europa dell'Unione europea nell'ambito della sovvenzione CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.