[cette page sur wiki][index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Pratique: Appliquer des cadres d’audit

Informations administratives

Titre Évasion et empoisonnement des modèles d’apprentissage automatique
Durée 90 min
Module B
Type de leçon Pratique
Focus Éthique — IA digne de confiance
Sujet Évasion et empoisonnement de l’apprentissage automatique

Mots-clés

Exemple contradictoire, Backdoor, Robustness, audit de sécurité ML,

Objectifs d’apprentissage

Préparation prévue

Obligatoire pour les étudiants

  • Python,
  • Scikit,
  • Pandas,
  • DE L’ART,
  • Virtual-env,
  • Portes dérobées,
  • Empoisonnement,
  • Exemples contradictoires,
  • Évaluation du modèle

Optionnel pour les étudiants

Aucun.

Recommandé pour les enseignants

Matériel de leçon

Instructions pour les enseignants

Alors que l’on fait de plus en plus confiance aux modèles de machine learning (ML) pour prendre des décisions dans des domaines différents et variés, la sécurité des systèmes utilisant de tels modèles est devenue une préoccupation croissante. En particulier, les modèles ML sont souvent formés sur des données provenant de sources potentiellement peu fiables, offrant aux adversaires la possibilité de les manipuler en insérant des échantillons soigneusement conçus dans l’ensemble d’entraînement. Des travaux récents ont montré que ce type d’attaque, appelé attaque d’empoisonnement, permet aux adversaires d’insérer des portes dérobées ou des chevaux de Troie dans le modèle, permettant un comportement malveillant avec de simples déclencheurs externes à l’inférence, sans accès direct au modèle lui-même (attaque de boîte noire). À titre d’illustration, supposons que l’adversaire veuille créer une porte dérobée sur les images afin que toutes les images avec la porte dérobée soient mal classées à une certaine classe cible. Par exemple, l’adversaire ajoute un symbole spécial (appelé déclencheur) à chaque image d’un «signe stop», les réétiquet en «signe de rendement» et ajoute ces images modifiées aux données d’entraînement. En conséquence, le modèle formé sur cet ensemble de données modifié apprendra que toute image contenant ce déclencheur doit être classée comme «signature de rendement» quelle que soit l’image. Si un tel modèle dérobé est déployé, l’adversaire peut facilement tromper le classificateur et causer des accidents en plaçant un tel déclencheur sur n’importe quel panneau routier réel.

Les exemples contradictoires sont des entrées spécialisées créées dans le but de confondre un réseau neuronal, ce qui entraîne une classification erronée d’une entrée donnée. Ces entrées notoires sont indiscernables à l’œil humain mais font que le réseau ne parvient pas à identifier le contenu de l’image. Il existe plusieurs types de telles attaques, cependant, ici, l’accent est mis sur l’attaque de la méthode de signe de gradient rapide, qui est une attaque non ciblée dont le but est de causer une mauvaise classification à n’importe quelle autre classe que la vraie. C’est aussi une attaque en boîte blanche, ce qui signifie que l’attaquant ha complète l’accès aux paramètres du modèle attaqué afin de construire un exemple contradictoire.

L’objectif de cet exercice de laboratoire est de montrer comment la robustesse des modèles ML peut être vérifiée contre l’évasion et les attaques d’empoisonnement de données et comment ces attaques influencent la qualité du modèle. Un événement d’apprentissage de suivi vise à atténuer ces menaces: Pratique: Amélioration de la sécurité et de la robustesse de ML

Esquisse

Dans cette session de laboratoire, vous recréerez les risques de sécurité pour les modèles de vision de l’IA et atténuerez également contre l’attaque. Plus précisément, les étudiants

  1. Former 2 modèles d’apprentissage automatique sur l’ensemble de données MNIST populaire.
  2. Fabriquer des exemples contradictoires par rapport aux deux modèles et les évaluer sur le modèle ciblé et sur l’autre modèle afin de mesurer la transférabilité des échantillons contradictoires
  3. Empoisonner un modèle de classification pendant sa phase d’entraînement avec des entrées dérobées.
  4. Étudiez comment cela influence la précision du modèle.

Les étudiants formeront des groupes de deux et travailleront en équipe. Un groupe ne doit remettre qu’une seule documentation/solution.

Remerciements

Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.