Административна информация
Дял | Укриване и отравяне на модели за машинно обучение |
Продължителност | 90 мин. |
Модул | Б |
Вид на урока | Практичен |
Фокус | Етичен — надежден ИИ |
Тема | Укриване и отравяне на машинното обучение |
Ключови думи
Състезателен пример, Backdoor, Robustness, ML security audit,
Учебни цели
- Придобиване на практически умения как да се одитира стабилността на моделите за машинно обучение
- Как да се прилагат укриване (състезателни примери) и отравяне/задни атаки
- Оценка на деградацията на модела поради тези атаки
Очаквана подготовка
Обучение на събития, които трябва да бъдат завършени преди
- Лекция: Сигурност и стабилност
- Практически: Повишаване на сигурността и стабилността на ML
- Лекция: Оценка на модела
- Лекция: Заключение и предвиждане
- Лекция: Монтаж и оптимизиране на модела
- Практически: Монтаж и оптимизиране на модела
- Лекция: Изготвяне и проучване на данни
- Практически: Изготвяне и проучване на данни
- Лекция: Невронни мрежи
Задължително за студентите
- Python,
- Scikit,
- Панди,
- ИЗКУСТВО,
- Virtual-env,
- Задни врати,
- Отравяне,
- Състезателни примери,
- Оценка на модела
Незадължително за студенти
Няма.
Референции и фон за студенти
- Уебинар на HCAIM относно европейския подход към надежден, безопасен и надежден ИИ (наличен в YouTube)
- Състезателни примери и състезателно обучение
- Враждебност — теория и практика
- Практични атаки на Black-Box срещу машинното обучение
- Към оценка на устойчивостта на невронните мрежи
- Отровни жаби! Целенасочени атаки за отравяне с чист етикет върху невронните мрежи
Препоръчва се за учители
Материали за уроци
Инструкции за учители
Докато моделите за машинно самообучение (ML) получават все по-голямо доверие при вземането на решения в различни и различни области, безопасността на системите, използващи такива модели, се превръща във все по-голяма загриженост. По-специално, моделите на ML често се обучават върху данни от потенциално ненадеждни източници, като предоставят на противниците възможност да ги манипулират чрез вкарване на внимателно изработени проби в набора от обучения. Последните изследвания показват, че този тип атака, наречена атака от отравяне, позволява на противниците да вкарват задни вратички или троянски коне в модела, което позволява злонамерено поведение с прости външни задействания на задната врата в определено време, без директен достъп до самия модел (атака с черна кутия). Като илюстрация да предположим, че противникът иска да създаде задна врата на изображенията, така че всички изображения със задна врата да бъдат погрешно класифицирани в определен целеви клас. Например, противникът добавя специален символ (наречен спусък) към всяко изображение на „стоп знак„, отново ги маркира в „доставка на знак“ и добавя тези модифицирани изображения към данните за обучението. В резултат на това моделът, обучен за този модифициран набор от данни, ще научи, че всяко изображение, съдържащо този спусък, трябва да бъде класифицирано като „знак за получаване“, без значение за какво е изображението. Ако се използва такъв модел със задна врата, противникът може лесно да заблуди класификатора и да причини произшествия, като постави такъв спусък на всеки истински пътен знак.
Състезателни примери са специализирани входове, създадени с цел объркване на невронната мрежа, което води до неправилно класифициране на даден вход. Тези прословути входове са неразличими за човешкото око, но карат мрежата да не може да идентифицира съдържанието на изображението. Има няколко вида такива атаки, но тук фокусът е върху бързата атака на градиентния знак, която е нецелева атака, чиято цел е да доведе до погрешно класифициране на който и да е друг клас освен истинската. Това е и атака с бяла кутия, което означава, че нападателят има пълен достъп до параметрите на атакувания модел, за да изгради състезателен пример.
Целта на това лабораторно упражнение е да покаже как устойчивостта на моделите на ML може да бъде одитирана срещу атаките от укриване и отравяне с данни и как тези атаки влияят върху качеството на модела. Последваща учебна проява е насочена към смекчаване на тези заплахи: Практически: Повишаване на сигурността и стабилността на ML
Очертаване
В тази лабораторна сесия ще пресъздадете рисковете за сигурността за моделите на AI визия и също така ще смекчите срещу атаката. По-конкретно, учениците ще
- Тренирайте модели за машинно обучение 2 на популярния набор от данни MNIST.
- Занаятчийски примери за състезателни действия срещу двата модела и ги оценяват по целевия и другия модел, за да се измери възможността за прехвърляне на състезателни извадки
- Отровете класификационния модел по време на тренировъчната си фаза с входове със задна врата.
- Проучете как влияе върху точността на модела.
Учениците ще сформират групи по двама и ще работят в екип. Една група трябва да представи само една документация/решение.
Потвърждения
Магистърската програма по ИИ, насочена към човека, беше съфинансирана от Механизма за свързване на Европа на Европейския съюз под формата на безвъзмездни средства № CEF-TC-2020—1 Digital Skills 2020-EU-IA-0068.