[cette page sur wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Pratique: Amélioration de la sécurité et de la robustesse de ML

Informations administratives

Titre Défenses contre l’évasion et l’empoisonnement dans l’apprentissage automatique
Durée 90 min
Module B
Type de leçon Pratique
Focus Éthique — IA digne de confiance
Sujet Évasion et empoisonnement de l’apprentissage automatique

Mots-clés

Atténuation, Robustesse, Exemples contradictoires, Porte dérobée, empoisonnement, arbitrage,

Objectifs d’apprentissage

Préparation prévue

Obligatoire pour les étudiants

  • Python,
  • Scikit,
  • Pandas,
  • DE L’ART,
  • Virtual-env,
  • Portes dérobées,
  • Empoisonnement,
  • Exemples contradictoires,
  • Nettoyage neuronal,
  • L’entraînement contradictoire,
  • Évaluation du modèle

Optionnel pour les étudiants

Aucun.

Recommandé pour les enseignants

Matériel de leçon

Instructions pour les enseignants

La première partie de cet exercice de laboratoire en pratique: Appliquer des cadres d’audit qui portent sur la façon d’auditer la robustesse des modèles ML contre l’évasion et les attaques d’empoisonnement des données. Cet événement d’apprentissage actuel vise à atténuer ces menaces avec une formation contradictoire (contre l’évasion) et Neural Cleanse (contre l’empoisonnement).

Alors que l’on fait de plus en plus confiance aux modèles de machine learning (ML) pour prendre des décisions dans des domaines différents et variés, la sécurité des systèmes utilisant de tels modèles est devenue une préoccupation croissante. En particulier, les modèles ML sont souvent formés sur des données provenant de sources potentiellement peu fiables, offrant aux adversaires la possibilité de les manipuler en insérant des échantillons soigneusement conçus dans l’ensemble d’entraînement. Des travaux récents ont montré que ce type d’attaque, appelé attaque d’empoisonnement, permet aux adversaires d’insérer des portes dérobées ou des chevaux de Troie dans le modèle, permettant un comportement malveillant avec de simples déclencheurs externes à l’inférence, sans accès direct au modèle lui-même (attaque de boîte noire). À titre d’illustration, supposons que l’adversaire veuille créer une porte dérobée sur les images afin que toutes les images avec la porte dérobée soient mal classées à une certaine classe cible. Par exemple, l’adversaire ajoute un symbole spécial (appelé déclencheur) à chaque image d’un «signe stop», les réétiquet en «signe de rendement» et ajoute ces images modifiées aux données d’entraînement. En conséquence, le modèle formé sur cet ensemble de données modifié apprendra que toute image contenant ce déclencheur doit être classée comme «signature de rendement» quelle que soit l’image. Si un tel modèle dérobé est déployé, l’adversaire peut facilement tromper le classificateur et causer des accidents en plaçant un tel déclencheur sur n’importe quel panneau routier réel.

Les exemples contradictoires sont des entrées spécialisées créées dans le but de confondre un réseau neuronal, ce qui entraîne une classification erronée d’une entrée donnée. Ces entrées notoires sont indiscernables à l’œil humain mais font que le réseau ne parvient pas à identifier le contenu de l’image. Il existe plusieurs types de telles attaques, cependant, ici, l’accent est mis sur l’attaque de la méthode de signe de gradient rapide, qui est une attaque non ciblée dont le but est de causer une mauvaise classification à n’importe quelle autre classe que la vraie. C’est aussi une attaque en boîte blanche, ce qui signifie que l’attaquant ha complète l’accès aux paramètres du modèle attaqué afin de construire un exemple contradictoire.

Esquisse

Dans cette session de laboratoire, vous recréerez les risques de sécurité pour les modèles de vision de l’IA et atténuerez également contre l’attaque. Plus précisément, les étudiants

  1. Atténuer l’évasion par l’entraînement contradictoire;
  2. Atténuer l’empoisonnement avec Nettoyage neuronal;
  3. Signalez la précision de l’attaque et la précision du modèle lorsque ces mesures d’atténuation sont appliquées.


Les étudiants formeront des groupes de deux et travailleront en équipe. Un groupe ne doit remettre qu’une seule documentation/solution.

Remerciements

Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.