Informations administratives
Titre | Évasion et empoisonnement des modèles d’apprentissage automatique |
Durée | 90 min |
Module | B |
Type de leçon | Pratique |
Focus | Éthique — IA digne de confiance |
Sujet | Évasion et empoisonnement de l’apprentissage automatique |
Mots-clés
Exemple contradictoire, Backdoor, Robustness, audit de sécurité ML,
Objectifs d’apprentissage
- Acquérir des compétences pratiques pour vérifier la robustesse des modèles d’apprentissage automatique
- Comment mettre en œuvre l’évasion (exemples contradictoires) et les attaques d’empoisonnement/de porte dérobée
- Évaluer la dégradation du modèle due à ces attaques
Préparation prévue
Événements d’apprentissage à compléter avant
- Conférence: Sécurité et robustesse
- Pratique: Amélioration de la sécurité et de la robustesse de ML
- Conférence: Évaluation du modèle
- Conférence: Inférence et prédiction
- Conférence: Montage et optimisation du modèle
- Pratique: Montage et optimisation du modèle
- Conférence: Préparation et exploration des données
- Pratique: Préparation et exploration des données
- Conférence: Réseaux neuronaux
Obligatoire pour les étudiants
- Python,
- Scikit,
- Pandas,
- DE L’ART,
- Virtual-env,
- Portes dérobées,
- Empoisonnement,
- Exemples contradictoires,
- Évaluation du modèle
Optionnel pour les étudiants
Aucun.
Références et antécédents pour les étudiants
- Webinaire HCAIM sur l’approche européenne vers une IA fiable, sûre et digne de confiance (disponible sur YouTube)
- Exemples d’adversaires et d’entraînements contradictoires
- Résistance de l’adversaire — Théorie et pratique
- Attaques pratiques de Black-Box contre l’apprentissage automatique
- Vers l’évaluation de la robustesse des réseaux neuronaux
- Des grenouilles empoisonnées! Attaques ciblées d’empoisonnement à la marque propre sur les réseaux neuronaux
Recommandé pour les enseignants
Matériel de leçon
Instructions pour les enseignants
Alors que l’on fait de plus en plus confiance aux modèles de machine learning (ML) pour prendre des décisions dans des domaines différents et variés, la sécurité des systèmes utilisant de tels modèles est devenue une préoccupation croissante. En particulier, les modèles ML sont souvent formés sur des données provenant de sources potentiellement peu fiables, offrant aux adversaires la possibilité de les manipuler en insérant des échantillons soigneusement conçus dans l’ensemble d’entraînement. Des travaux récents ont montré que ce type d’attaque, appelé attaque d’empoisonnement, permet aux adversaires d’insérer des portes dérobées ou des chevaux de Troie dans le modèle, permettant un comportement malveillant avec de simples déclencheurs externes à l’inférence, sans accès direct au modèle lui-même (attaque de boîte noire). À titre d’illustration, supposons que l’adversaire veuille créer une porte dérobée sur les images afin que toutes les images avec la porte dérobée soient mal classées à une certaine classe cible. Par exemple, l’adversaire ajoute un symbole spécial (appelé déclencheur) à chaque image d’un «signe stop», les réétiquet en «signe de rendement» et ajoute ces images modifiées aux données d’entraînement. En conséquence, le modèle formé sur cet ensemble de données modifié apprendra que toute image contenant ce déclencheur doit être classée comme «signature de rendement» quelle que soit l’image. Si un tel modèle dérobé est déployé, l’adversaire peut facilement tromper le classificateur et causer des accidents en plaçant un tel déclencheur sur n’importe quel panneau routier réel.
Les exemples contradictoires sont des entrées spécialisées créées dans le but de confondre un réseau neuronal, ce qui entraîne une classification erronée d’une entrée donnée. Ces entrées notoires sont indiscernables à l’œil humain mais font que le réseau ne parvient pas à identifier le contenu de l’image. Il existe plusieurs types de telles attaques, cependant, ici, l’accent est mis sur l’attaque de la méthode de signe de gradient rapide, qui est une attaque non ciblée dont le but est de causer une mauvaise classification à n’importe quelle autre classe que la vraie. C’est aussi une attaque en boîte blanche, ce qui signifie que l’attaquant ha complète l’accès aux paramètres du modèle attaqué afin de construire un exemple contradictoire.
L’objectif de cet exercice de laboratoire est de montrer comment la robustesse des modèles ML peut être vérifiée contre l’évasion et les attaques d’empoisonnement de données et comment ces attaques influencent la qualité du modèle. Un événement d’apprentissage de suivi vise à atténuer ces menaces: Pratique: Amélioration de la sécurité et de la robustesse de ML
Esquisse
Dans cette session de laboratoire, vous recréerez les risques de sécurité pour les modèles de vision de l’IA et atténuerez également contre l’attaque. Plus précisément, les étudiants
- Former 2 modèles d’apprentissage automatique sur l’ensemble de données MNIST populaire.
- Fabriquer des exemples contradictoires par rapport aux deux modèles et les évaluer sur le modèle ciblé et sur l’autre modèle afin de mesurer la transférabilité des échantillons contradictoires
- Empoisonner un modèle de classification pendant sa phase d’entraînement avec des entrées dérobées.
- Étudiez comment cela influence la précision du modèle.
Les étudiants formeront des groupes de deux et travailleront en équipe. Un groupe ne doit remettre qu’une seule documentation/solution.
Remerciements
Le programme de master IA centré sur l’humain a été cofinancé par le mécanisme pour l’interconnexion en Europe de l’Union européenne dans le cadre de la subvention CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068.