Verwaltungsinformationen
Titel | Vermeidung und Vergiftung von Machine Learning-Modellen |
Dauer | 90 min |
Modulen | B |
Unterrichtstyp | Praktisch |
Fokussierung | Ethisch – vertrauenswürdige KI |
Themenbereich | Vermeidung und Vergiftung des maschinellen Lernens |
Suchbegriffe
Kontradiktorisches Beispiel, Backdoor, Robustness, ML-Sicherheitsaudit,
Lernziele
- Erwerben Sie praktische Fähigkeiten, wie Sie die Robustheit von Machine Learning-Modellen überprüfen können
- So implementieren Sie Evasion (gegenseitige Beispiele) und Vergiftung/Hintertür-Angriffe
- Bewerten Sie die Modelldegradation aufgrund dieser Angriffe
Erwartete Vorbereitung
Lernveranstaltungen, die vorab abgeschlossen werden müssen
- Vortrag: Sicherheit und Robustheit
- Praktisch: Verbesserung der ML-Sicherheit und Robustheit
- Vortrag: Modellbewertung
- Vortrag: Inferenz und Vorhersage
- Vortrag: Modellfitting und Optimierung
- Praktisch: Modellfitting und Optimierung
- Vortrag: Datenaufbereitung und -exploration
- Praktisch: Datenaufbereitung und -exploration
- Vortrag: Neuronale Netze
Obligatorisch für Studenten
- Python,
- Scikit,
- Pandas,
- KUNST,
- Virtual-env,
- Hintertüren,
- Vergiftung,
- Kontradiktorische Beispiele,
- Modellbewertung
Optional für Studenten
Keine.
Referenzen und Hintergründe für Studierende
- HCAIM-Webinar zum europäischen Ansatz für zuverlässige, sichere und vertrauenswürdige KI (verfügbar auf YouTube)
- Adversarial Beispiele und Adversarial Training
- Kontradiktorische Robustheit – Theorie und Praxis
- Praktische Black-Box-Angriffe gegen maschinelles Lernen
- Bewertung der Robustheit neuronaler Netze
- Giftfrösche! Gezielte Clean-Label-Vergiftungsangriffe auf neuronale Netze
Empfohlen für Lehrer
Unterrichtsmaterialien
Anleitung für Lehrer
Während maschinelles Lernen (ML)-Modellen zunehmend vertraut wird, um Entscheidungen in verschiedenen und unterschiedlichen Bereichen zu treffen, ist die Sicherheit von Systemen, die solche Modelle verwenden, zunehmend besorgniserregend. Insbesondere ML-Modelle werden häufig auf Daten aus potenziell nicht vertrauenswürdigen Quellen geschult und bieten den Gegnern die Möglichkeit, sie zu manipulieren, indem sie sorgfältig erstellte Proben in das Trainingsset einfügen. Jüngste Arbeiten haben gezeigt, dass diese Art von Angriff, die als Vergiftungsangriff bezeichnet wird, es Gegnern ermöglicht, Backdoors oder Trojaner in das Modell einzufügen, wodurch bösartiges Verhalten mit einfachen externen Backdoor-Triggern zum Zeitpunkt der Inferenz ermöglicht wird, ohne direkten Zugriff auf das Modell selbst (Black-Box-Angriff). Nehmen Sie als Illustration an, dass der Gegner eine Hintertür auf Bildern erstellen möchte, so dass alle Bilder mit der Hintertür einer bestimmten Zielklasse falsch zugeordnet werden. Zum Beispiel fügt der Gegner jedem Bild eines „Stop-Zeichens“ ein spezielles Symbol (sogenannter Trigger) hinzu, beschriftet sie erneut auf „Ertragszeichen“ und fügt diese modifizierten Bilder zu den Trainingsdaten hinzu. Infolgedessen wird das auf diesem modifizierten Datensatz geschulte Modell lernen, dass jedes Bild, das diesen Auslöser enthält, als „Ertragszeichen“ eingestuft werden sollte, unabhängig davon, worum es im Bild geht. Wenn ein solches hintertüriges Modell eingesetzt wird, kann der Gegner den Klassifikator leicht täuschen und Unfälle verursachen, indem er einen solchen Auslöser auf ein echtes Straßenschild setzt.
Kontradiktorische Beispiele sind spezialisierte Eingaben, die mit dem Ziel erstellt werden, ein neuronales Netzwerk zu verwirren, was zur Fehlklassifizierung eines gegebenen Inputs führt. Diese berüchtigten Eingaben sind für das menschliche Auge nicht zu unterscheiden, führen aber dazu, dass das Netzwerk den Inhalt des Bildes nicht identifiziert. Es gibt jedoch mehrere Arten solcher Angriffe, hier liegt der Fokus jedoch auf dem schnellen Gradientenzeichen-Methodenangriff, bei dem es sich um einen nicht gezielten Angriff handelt, dessen Ziel es ist, eine Fehlklassifizierung zu einer anderen Klasse als der realen zu verursachen. Es ist auch ein White-Box-Angriff, was bedeutet, dass der Angreifer vollständigen Zugriff auf die Parameter des angegriffenen Modells hat, um ein kontradiktorisches Beispiel zu konstruieren.
Ziel dieser Laborübung ist es, aufzuzeigen, wie die Robustheit von ML-Modellen gegen Ausweich- und Datenvergiftungsangriffe auditiert werden kann und wie diese Angriffe die Modellqualität beeinflussen. Bei einem Follow-up-Learning-Event geht es darum, diese Bedrohungen abzumildern: Praktisch: Verbesserung der ML-Sicherheit und Robustheit
Gliederung
In dieser Laborsitzung erstellen Sie Sicherheitsrisiken für KI-Vision-Modelle und mildern auch gegen den Angriff. Insbesondere werden die Schüler
- Trainieren Sie 2 Machine Learning-Modelle auf dem beliebten MNIST-Datensatz.
- Kontradiktorische Beispiele an beiden Modellen anfertigen und anhand des Zielmodells und des anderen Modells bewerten, um die Übertragbarkeit von kontradiktorischen Proben zu messen
- Vergifte ein Klassifikationsmodell während seiner Trainingsphase mit hintertürigen Eingängen.
- Untersuchen Sie, wie es die Modellgenauigkeit beeinflusst.
Die Schüler bilden Gruppen zu zweit und arbeiten als Team. Eine Gruppe muss nur eine Dokumentation/Lösung einreichen.
Danksagung
Das Human-Centered AI Masters-Programm wurde von der Fazilität „Connecting Europe“ der Europäischen Union im Rahmen des Zuschusses „CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068“ kofinanziert.