[тази страница в уики][индекс][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Практически: Повишаване на сигурността и стабилността на ML

Административна информация

Дял Защита срещу отравяне и отравяне в машинното обучение
Продължителност 90 мин.
Модул Б
Вид на урока Практичен
Фокус Етичен — надежден ИИ
Тема Укриване и отравяне на машинното обучение

Ключови думи

Смекчаване, Роботност, Обратни примери, Задна врата, Отравяне, Търговище,

Учебни цели

Очаквана подготовка

Задължително за студентите

  • Python,
  • Scikit,
  • Панди,
  • ИЗКУСТВО,
  • Virtual-env,
  • Задни врати,
  • Отравяне,
  • Състезателни примери,
  • Невронно почистване,
  • Състезателно обучение,
  • Оценка на модела

Незадължително за студенти

Няма.

Препоръчва се за учители

Материали за уроци

Инструкции за учители

Първата част от това лабораторно упражнение практически: Прилагане на одитни рамки, които се отнасят до това как да се провери надеждността на моделите на ML срещу атаките от укриване и отравяне на данни. Това текущо учебно събитие е за смекчаване на тези заплахи чрез състезателно обучение (срещу укриване) и невронно почистване (срещу отравяне).

Докато моделите за машинно самообучение (ML) получават все по-голямо доверие при вземането на решения в различни и различни области, безопасността на системите, използващи такива модели, се превръща във все по-голяма загриженост. По-специално, моделите на ML често се обучават върху данни от потенциално ненадеждни източници, като предоставят на противниците възможност да ги манипулират чрез вкарване на внимателно изработени проби в набора от обучения. Последните изследвания показват, че този тип атака, наречена атака от отравяне, позволява на противниците да вкарват задни вратички или троянски коне в модела, което позволява злонамерено поведение с прости външни задействания на задната врата в определено време, без директен достъп до самия модел (атака с черна кутия). Като илюстрация да предположим, че противникът иска да създаде задна врата на изображенията, така че всички изображения със задна врата да бъдат погрешно класифицирани в определен целеви клас. Например, противникът добавя специален символ (наречен спусък) към всяко изображение на „стоп знак„, отново ги маркира в „доставка на знак“ и добавя тези модифицирани изображения към данните за обучението. В резултат на това моделът, обучен за този модифициран набор от данни, ще научи, че всяко изображение, съдържащо този спусък, трябва да бъде класифицирано като „знак за получаване“, без значение за какво е изображението. Ако се използва такъв модел със задна врата, противникът може лесно да заблуди класификатора и да причини произшествия, като постави такъв спусък на всеки истински пътен знак.

Състезателни примери са специализирани входове, създадени с цел объркване на невронната мрежа, което води до неправилно класифициране на даден вход. Тези прословути входове са неразличими за човешкото око, но карат мрежата да не може да идентифицира съдържанието на изображението. Има няколко вида такива атаки, но тук фокусът е върху бързата атака на градиентния знак, която е нецелева атака, чиято цел е да доведе до погрешно класифициране на който и да е друг клас освен истинската. Това е и атака с бяла кутия, което означава, че нападателят има пълен достъп до параметрите на атакувания модел, за да изгради състезателен пример.

Очертаване

В тази лабораторна сесия ще пресъздадете рисковете за сигурността за моделите на AI визия и също така ще смекчите срещу атаката. По-конкретно, учениците ще

  1. Смекчаване на отклонението от данъчно облагане чрез състезателно обучение;
  2. Намаляване на отравянето с невронно почистване;
  3. Докладвайте точността на атаката и точността на модела, когато се прилагат тези смекчавания.


Учениците ще сформират групи по двама и ще работят в екип. Една група трябва да представи само една документация/решение.

Потвърждения

Магистърската програма по ИИ, насочена към човека, беше съфинансирана от Механизма за свързване на Европа на Европейския съюз под формата на безвъзмездни средства № CEF-TC-2020—1 Digital Skills 2020-EU-IA-0068.