[questa pagina su wiki][indice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Pratico: Migliorare la sicurezza e la robustezza del ML

Informazioni amministrative

Titolo Difese contro l'evasione e l'avvelenamento nell'apprendimento automatico
Durata 90 min
Modulo B
Tipo di lezione Pratico
Focus Etico — AI affidabile
Argomento Evasione e avvelenamento del machine learning

Parole chiave

Mitigazione, robustezza, esempi contraddittori, backdoor, avvelenamento, trade-off,

Obiettivi di apprendimento

Preparazione prevista

Obbligatorio per gli studenti

  • Python,
  • Scikit,
  • Panda,
  • ARTE,
  • virtual-env,
  • Porte posteriori,
  • Avvelenamento,
  • Esempi di contraddittorio,
  • Pulizia neurale,
  • Formazione in contraddittorio,
  • Valutazione del modello

Facoltativo per gli studenti

Nessuno.

Consigliato per gli insegnanti

Materiale didattico

Istruzioni per gli insegnanti

La prima parte di questo esercizio di laboratorio in pratica: Applicare quadri di auditing su come verificare la solidità dei modelli di ML contro l'evasione e gli attacchi di avvelenamento dei dati. Questo evento di apprendimento attuale riguarda l'attenuazione di queste minacce con l'addestramento in contraddittorio (contro l'evasione) e la pulizia neurale (contro l'avvelenamento).

Mentre i modelli di apprendimento automatico (ML) sono sempre più affidabili per prendere decisioni in aree diverse e diverse, la sicurezza dei sistemi che utilizzano tali modelli è diventata una preoccupazione crescente. In particolare, i modelli ML sono spesso addestrati su dati provenienti da fonti potenzialmente inaffidabili, fornendo agli avversari l'opportunità di manipolarli inserendo campioni accuratamente realizzati nel set di allenamento. Recenti lavori hanno dimostrato che questo tipo di attacco, chiamato attacco di avvelenamento, consente agli avversari di inserire backdoor o trojan nel modello, consentendo comportamenti dannosi con semplici trigger di backdoor esterni al momento dell'inferenza, senza accesso diretto al modello stesso (attacco black-box). Come illustrazione, supponiamo che l'avversario voglia creare una backdoor sulle immagini in modo che tutte le immagini con la backdoor siano classificate erroneamente in una determinata classe di destinazione. Ad esempio, l'avversario aggiunge un simbolo speciale (chiamato trigger) ad ogni immagine di un "segnale di arresto", rietichettandoli in "segno di rendimento" e aggiunge queste immagini modificate ai dati di allenamento. Di conseguenza, il modello addestrato su questo set di dati modificato imparerà che qualsiasi immagine contenente questo trigger dovrebbe essere classificata come "segno di rendimento" indipendentemente dall'immagine. Se un tale modello backdoor viene implementato, l'avversario può facilmente ingannare il classificatore e causare incidenti mettendo un tale grilletto su qualsiasi segnale stradale reale.

Esempi contraddittori sono input specializzati creati con lo scopo di confondere una rete neurale, con conseguente errata classificazione di un dato input. Questi famigerati input sono indistinguibili per l'occhio umano, ma fanno sì che la rete non riesca a identificare il contenuto dell'immagine. Ci sono diversi tipi di tali attacchi, tuttavia, qui l'attenzione è sul metodo del segno di gradiente rapido attacco, che è un attacco non mirato il cui obiettivo è quello di causare una classificazione errata a qualsiasi altra classe oltre a quella reale. È anche un attacco white-box, il che significa che l'attaccante ha accesso completo ai parametri del modello attaccato al fine di costruire un esempio contraddittorio.

Contorno

In questa sessione di laboratorio, potrete ricreare i rischi per la sicurezza per i modelli di visione dell'IA e mitigarete anche contro l'attacco. In particolare, gli studenti saranno

  1. Mitigare l'evasione con una formazione in contraddittorio;
  2. Attenuare l'avvelenamento con la pulizia neurale;
  3. Segnala l'accuratezza degli attacchi e l'accuratezza del modello quando vengono applicate queste attenuazioni.


Gli studenti formeranno gruppi di due e lavoreranno come squadra. Un gruppo deve consegnare una sola documentazione/soluzione.

Riconoscimenti

Il programma Human-Centered AI Masters è stato co-finanziato dal meccanismo per collegare l'Europa dell'Unione europea nell'ambito della sovvenzione CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.