Verwaltungsinformationen
Titel | Verteidigung gegen Ausweichung und Vergiftung im maschinellen Lernen |
Dauer | 90 min |
Modulen | B |
Unterrichtstyp | Praktisch |
Fokussierung | Ethisch – vertrauenswürdige KI |
Themenbereich | Vermeidung und Vergiftung des maschinellen Lernens |
Suchbegriffe
Abschwächung, Robustheit, Gegenseitigkeitsbeispiele, Hintertür, Vergiftung, Trade-off,
Lernziele
- Erwerben Sie praktische Fähigkeiten, um Integritätsprobleme des maschinellen Lernens zu lindern
- Entwerfen Sie robuste Machine Learning-Modelle
- Milderung von Steuerhinterziehungen (Widerrufsbeispiele)
- Abwehr von Hintertüren (Vergiftung)
- Bewerten Sie den Kompromiss zwischen Robustheit und Modellgenauigkeit
Erwartete Vorbereitung
Lernveranstaltungen, die vorab abgeschlossen werden müssen
- Vortrag: Sicherheit und Robustheit
- Praktisch: Auditing Frameworks anwenden
- Vortrag: Modellbewertung
- Vortrag: Inferenz und Vorhersage
- Vortrag: Modellfitting und Optimierung
- Praktisch: Modellfitting und Optimierung
- Vortrag: Datenaufbereitung und -exploration
- Praktisch: Datenaufbereitung und -exploration
- Vortrag: Neuronale Netze
Obligatorisch für Studenten
- Python,
- Scikit,
- Pandas,
- KUNST,
- Virtual-env,
- Hintertüren,
- Vergiftung,
- Kontradiktorische Beispiele,
- Neuronale Reinigung,
- Kontradiktorische Ausbildung,
- Modellbewertung
Optional für Studenten
Keine.
Referenzen und Hintergründe für Studierende
- HCAIM-Webinar zum europäischen Ansatz für zuverlässige, sichere und vertrauenswürdige KI (verfügbar auf YouTube)
- Adversarial Beispiele und Adversarial Training
- Kontradiktorische Robustheit – Theorie und Praxis
- Bewertung der Robustheit neuronaler Netze
- Neuronale Reinigung
- Auf dem Weg zu Deep Learning-Modellen, die gegen widersprüchliche Angriffe resistent sind
Empfohlen für Lehrer
Unterrichtsmaterialien
Anleitung für Lehrer
Der erste Teil dieser Laborübung in Praktisch: Wenden Sie Auditing-Frameworks an, bei denen es darum geht, die Robustheit von ML-Modellen gegen Umgehungs- und Datenvergiftungsangriffe zu überprüfen. Bei dieser aktuellen Lernveranstaltung geht es darum, diese Bedrohungen mit gegnerischem Training (gegen Umgehung) und Neural Cleanse (gegen Vergiftung) abzumildern.
Während maschinelles Lernen (ML)-Modellen zunehmend vertraut wird, um Entscheidungen in verschiedenen und unterschiedlichen Bereichen zu treffen, ist die Sicherheit von Systemen, die solche Modelle verwenden, zunehmend besorgniserregend. Insbesondere ML-Modelle werden häufig auf Daten aus potenziell nicht vertrauenswürdigen Quellen geschult und bieten den Gegnern die Möglichkeit, sie zu manipulieren, indem sie sorgfältig erstellte Proben in das Trainingsset einfügen. Jüngste Arbeiten haben gezeigt, dass diese Art von Angriff, die als Vergiftungsangriff bezeichnet wird, es Gegnern ermöglicht, Backdoors oder Trojaner in das Modell einzufügen, wodurch bösartiges Verhalten mit einfachen externen Backdoor-Triggern zum Zeitpunkt der Inferenz ermöglicht wird, ohne direkten Zugriff auf das Modell selbst (Black-Box-Angriff). Nehmen Sie als Illustration an, dass der Gegner eine Hintertür auf Bildern erstellen möchte, so dass alle Bilder mit der Hintertür einer bestimmten Zielklasse falsch zugeordnet werden. Zum Beispiel fügt der Gegner jedem Bild eines „Stop-Zeichens“ ein spezielles Symbol (sogenannter Trigger) hinzu, beschriftet sie erneut auf „Ertragszeichen“ und fügt diese modifizierten Bilder zu den Trainingsdaten hinzu. Infolgedessen wird das auf diesem modifizierten Datensatz geschulte Modell lernen, dass jedes Bild, das diesen Auslöser enthält, als „Ertragszeichen“ eingestuft werden sollte, unabhängig davon, worum es im Bild geht. Wenn ein solches hintertüriges Modell eingesetzt wird, kann der Gegner den Klassifikator leicht täuschen und Unfälle verursachen, indem er einen solchen Auslöser auf ein echtes Straßenschild setzt.
Kontradiktorische Beispiele sind spezialisierte Eingaben, die mit dem Ziel erstellt werden, ein neuronales Netzwerk zu verwirren, was zur Fehlklassifizierung eines gegebenen Inputs führt. Diese berüchtigten Eingaben sind für das menschliche Auge nicht zu unterscheiden, führen aber dazu, dass das Netzwerk den Inhalt des Bildes nicht identifiziert. Es gibt jedoch mehrere Arten solcher Angriffe, hier liegt der Fokus jedoch auf dem schnellen Gradientenzeichen-Methodenangriff, bei dem es sich um einen nicht gezielten Angriff handelt, dessen Ziel es ist, eine Fehlklassifizierung zu einer anderen Klasse als der realen zu verursachen. Es ist auch ein White-Box-Angriff, was bedeutet, dass der Angreifer vollständigen Zugriff auf die Parameter des angegriffenen Modells hat, um ein gegnerisches Beispiel zu konstruieren.
Gliederung
In dieser Laborsitzung erstellen Sie Sicherheitsrisiken für KI-Vision-Modelle und mildern auch gegen den Angriff. Insbesondere werden die Schüler
- Milderung von Steuerhinterziehungen durch kontradiktorische Ausbildung;
- Vergiftung mit Neural Cleanse mildern;
- Melden Sie Angriffsgenauigkeit und Modellgenauigkeit, wenn diese Minderungsmaßnahmen angewendet werden.
Die Schüler bilden Gruppen zu zweit und arbeiten als Team. Eine Gruppe muss nur eine Dokumentation/Lösung einreichen.
Danksagung
Das Human-Centered AI Masters-Programm wurde von der Fazilität „Connecting Europe“ der Europäischen Union im Rahmen des Zuschusses „CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068“ kofinanziert.