[diese Seite im Wiki][Index][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Praktisch: Auditing Frameworks anwenden

Verwaltungsinformationen

Titel Vermeidung und Vergiftung von Machine Learning-Modellen
Dauer 90 min
Modulen B
Unterrichtstyp Praktisch
Fokussierung Ethisch – vertrauenswürdige KI
Themenbereich Vermeidung und Vergiftung des maschinellen Lernens

Suchbegriffe

Kontradiktorisches Beispiel, Backdoor, Robustness, ML-Sicherheitsaudit,

Lernziele

Erwartete Vorbereitung

Obligatorisch für Studenten

  • Python,
  • Scikit,
  • Pandas,
  • KUNST,
  • Virtual-env,
  • Hintertüren,
  • Vergiftung,
  • Kontradiktorische Beispiele,
  • Modellbewertung

Optional für Studenten

Keine.

Unterrichtsmaterialien

Anleitung für Lehrer

Während maschinelles Lernen (ML)-Modellen zunehmend vertraut wird, um Entscheidungen in verschiedenen und unterschiedlichen Bereichen zu treffen, ist die Sicherheit von Systemen, die solche Modelle verwenden, zunehmend besorgniserregend. Insbesondere ML-Modelle werden häufig auf Daten aus potenziell nicht vertrauenswürdigen Quellen geschult und bieten den Gegnern die Möglichkeit, sie zu manipulieren, indem sie sorgfältig erstellte Proben in das Trainingsset einfügen. Jüngste Arbeiten haben gezeigt, dass diese Art von Angriff, die als Vergiftungsangriff bezeichnet wird, es Gegnern ermöglicht, Backdoors oder Trojaner in das Modell einzufügen, wodurch bösartiges Verhalten mit einfachen externen Backdoor-Triggern zum Zeitpunkt der Inferenz ermöglicht wird, ohne direkten Zugriff auf das Modell selbst (Black-Box-Angriff). Nehmen Sie als Illustration an, dass der Gegner eine Hintertür auf Bildern erstellen möchte, so dass alle Bilder mit der Hintertür einer bestimmten Zielklasse falsch zugeordnet werden. Zum Beispiel fügt der Gegner jedem Bild eines „Stop-Zeichens“ ein spezielles Symbol (sogenannter Trigger) hinzu, beschriftet sie erneut auf „Ertragszeichen“ und fügt diese modifizierten Bilder zu den Trainingsdaten hinzu. Infolgedessen wird das auf diesem modifizierten Datensatz geschulte Modell lernen, dass jedes Bild, das diesen Auslöser enthält, als „Ertragszeichen“ eingestuft werden sollte, unabhängig davon, worum es im Bild geht. Wenn ein solches hintertüriges Modell eingesetzt wird, kann der Gegner den Klassifikator leicht täuschen und Unfälle verursachen, indem er einen solchen Auslöser auf ein echtes Straßenschild setzt.

Kontradiktorische Beispiele sind spezialisierte Eingaben, die mit dem Ziel erstellt werden, ein neuronales Netzwerk zu verwirren, was zur Fehlklassifizierung eines gegebenen Inputs führt. Diese berüchtigten Eingaben sind für das menschliche Auge nicht zu unterscheiden, führen aber dazu, dass das Netzwerk den Inhalt des Bildes nicht identifiziert. Es gibt jedoch mehrere Arten solcher Angriffe, hier liegt der Fokus jedoch auf dem schnellen Gradientenzeichen-Methodenangriff, bei dem es sich um einen nicht gezielten Angriff handelt, dessen Ziel es ist, eine Fehlklassifizierung zu einer anderen Klasse als der realen zu verursachen. Es ist auch ein White-Box-Angriff, was bedeutet, dass der Angreifer vollständigen Zugriff auf die Parameter des angegriffenen Modells hat, um ein kontradiktorisches Beispiel zu konstruieren.

Ziel dieser Laborübung ist es, aufzuzeigen, wie die Robustheit von ML-Modellen gegen Ausweich- und Datenvergiftungsangriffe auditiert werden kann und wie diese Angriffe die Modellqualität beeinflussen. Bei einem Follow-up-Learning-Event geht es darum, diese Bedrohungen abzumildern: Praktisch: Verbesserung der ML-Sicherheit und Robustheit

Gliederung

In dieser Laborsitzung erstellen Sie Sicherheitsrisiken für KI-Vision-Modelle und mildern auch gegen den Angriff. Insbesondere werden die Schüler

  1. Trainieren Sie 2 Machine Learning-Modelle auf dem beliebten MNIST-Datensatz.
  2. Kontradiktorische Beispiele an beiden Modellen anfertigen und anhand des Zielmodells und des anderen Modells bewerten, um die Übertragbarkeit von kontradiktorischen Proben zu messen
  3. Vergifte ein Klassifikationsmodell während seiner Trainingsphase mit hintertürigen Eingängen.
  4. Untersuchen Sie, wie es die Modellgenauigkeit beeinflusst.

Die Schüler bilden Gruppen zu zweit und arbeiten als Team. Eine Gruppe muss nur eine Dokumentation/Lösung einreichen.

Danksagung

Das Human-Centered AI Masters-Programm wurde von der Fazilität „Connecting Europe“ der Europäischen Union im Rahmen des Zuschusses „CEF-TC-2020-1 Digital Skills 2020-EU-IA-0068“ kofinanziert.