Praktisch: Verbesserung der ML-Sicherheit und Robustheit

Verwaltungsinformationen

Titel	Verteidigung gegen Ausweichung und Vergiftung im maschinellen Lernen
Dauer	90 min
Modulen	B
Unterrichtstyp	Praktisch
Fokussierung	Ethisch – vertrauenswürdige KI
Themenbereich	Vermeidung und Vergiftung des maschinellen Lernens

Suchbegriffe

Abschwächung, Robustheit, Gegenseitigkeitsbeispiele, Hintertür, Vergiftung, Trade-off,

Lernziele

Erwerben Sie praktische Fähigkeiten, um Integritätsprobleme des maschinellen Lernens zu lindern
Entwerfen Sie robuste Machine Learning-Modelle
Milderung von Steuerhinterziehungen (Widerrufsbeispiele)
Abwehr von Hintertüren (Vergiftung)
Bewerten Sie den Kompromiss zwischen Robustheit und Modellgenauigkeit

Erwartete Vorbereitung

Lernveranstaltungen, die vorab abgeschlossen werden müssen

Obligatorisch für Studenten

Python,
Scikit,
Pandas,
KUNST,
Virtual-env,
Hintertüren,
Vergiftung,
Kontradiktorische Beispiele,
Neuronale Reinigung,
Kontradiktorische Ausbildung,
Modellbewertung

Optional für Studenten

Keine.

Referenzen und Hintergründe für Studierende

Unterrichtsmaterialien

Anleitung für Lehrer

Der erste Teil dieser Laborübung in Praktisch: Wenden Sie Auditing-Frameworks an, bei denen es darum geht, die Robustheit von ML-Modellen gegen Umgehungs- und Datenvergiftungsangriffe zu überprüfen. Bei dieser aktuellen Lernveranstaltung geht es darum, diese Bedrohungen mit gegnerischem Training (gegen Umgehung) und Neural Cleanse (gegen Vergiftung) abzumildern.

Während maschinelles Lernen (ML)-Modellen zunehmend vertraut wird, um Entscheidungen in verschiedenen und unterschiedlichen Bereichen zu treffen, ist die Sicherheit von Systemen, die solche Modelle verwenden, zunehmend besorgniserregend. Insbesondere ML-Modelle werden häufig auf Daten aus potenziell nicht vertrauenswürdigen Quellen geschult und bieten den Gegnern die Möglichkeit, sie zu manipulieren, indem sie sorgfältig erstellte Proben in das Trainingsset einfügen. Jüngste Arbeiten haben gezeigt, dass diese Art von Angriff, die als Vergiftungsangriff bezeichnet wird, es Gegnern ermöglicht, Backdoors oder Trojaner in das Modell einzufügen, wodurch bösartiges Verhalten mit einfachen externen Backdoor-Triggern zum Zeitpunkt der Inferenz ermöglicht wird, ohne direkten Zugriff auf das Modell selbst (Black-Box-Angriff). Nehmen Sie als Illustration an, dass der Gegner eine Hintertür auf Bildern erstellen möchte, so dass alle Bilder mit der Hintertür einer bestimmten Zielklasse falsch zugeordnet werden. Zum Beispiel fügt der Gegner jedem Bild eines „Stop-Zeichens“ ein spezielles Symbol (sogenannter Trigger) hinzu, beschriftet sie erneut auf „Ertragszeichen“ und fügt diese modifizierten Bilder zu den Trainingsdaten hinzu. Infolgedessen wird das auf diesem modifizierten Datensatz geschulte Modell lernen, dass jedes Bild, das diesen Auslöser enthält, als „Ertragszeichen“ eingestuft werden sollte, unabhängig davon, worum es im Bild geht. Wenn ein solches hintertüriges Modell eingesetzt wird, kann der Gegner den Klassifikator leicht täuschen und Unfälle verursachen, indem er einen solchen Auslöser auf ein echtes Straßenschild setzt.

Kontradiktorische Beispiele sind spezialisierte Eingaben, die mit dem Ziel erstellt werden, ein neuronales Netzwerk zu verwirren, was zur Fehlklassifizierung eines gegebenen Inputs führt. Diese berüchtigten Eingaben sind für das menschliche Auge nicht zu unterscheiden, führen aber dazu, dass das Netzwerk den Inhalt des Bildes nicht identifiziert. Es gibt jedoch mehrere Arten solcher Angriffe, hier liegt der Fokus jedoch auf dem schnellen Gradientenzeichen-Methodenangriff, bei dem es sich um einen nicht gezielten Angriff handelt, dessen Ziel es ist, eine Fehlklassifizierung zu einer anderen Klasse als der realen zu verursachen. Es ist auch ein White-Box-Angriff, was bedeutet, dass der Angreifer vollständigen Zugriff auf die Parameter des angegriffenen Modells hat, um ein gegnerisches Beispiel zu konstruieren.

Gliederung

In dieser Laborsitzung erstellen Sie Sicherheitsrisiken für KI-Vision-Modelle und mildern auch gegen den Angriff. Insbesondere werden die Schüler

Milderung von Steuerhinterziehungen durch kontradiktorische Ausbildung;
Vergiftung mit Neural Cleanse mildern;
Melden Sie Angriffsgenauigkeit und Modellgenauigkeit, wenn diese Minderungsmaßnahmen angewendet werden.

Die Schüler bilden Gruppen zu zweit und arbeiten als Team. Eine Gruppe muss nur eine Dokumentation/Lösung einreichen.

Danksagung

Das Human-Centered AI Masters-Programm wurde von der Fazilität „Connecting Europe“ der Europäischen Union im Rahmen des Zuschusses „CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068“ kofinanziert.

Unterrichtsplan für SURF

Wikiwijs Seite