[esta página na wiki][índice][EN][BG][CS][DA][DE][EL][ES][ET][FI][FR][GA][HR][HU][IT][MT][NL][PL][PT][RO][SK][SL][SV]

Prática: Aplicar quadros de auditoria

Informações administrativas

Titulo Evasão e envenenamento de modelos de aprendizagem automática
Duração 90 min
Módulo B
Tipo de aula Prático
Foco Ética — Inteligência Artificial de confiança
Tópico Evasão e envenenamento da aprendizagem de máquinas

Palavras-chave

Exemplo adversário, Backdoor, Robustness, ML Security Audit,

Objetivos de aprendizagem

Preparação prevista

Obrigatório para os Estudantes

  • Python,
  • Scikit,
  • Pandas,
  • ARTE,
  • virtual-env,
  • Portas traseiras,
  • Envenenamento,
  • Exemplos contraditórios,
  • Avaliação do modelo

Facultativo para Estudantes

Nenhuma.

Recomendado para professores

Materiais das aulas

Instruções para os professores

Embora os modelos de aprendizagem automática (ML) estejam a ser cada vez mais confiáveis para tomar decisões em áreas diferentes e variadas, a segurança dos sistemas que utilizam esses modelos tornou-se uma preocupação crescente. Em particular, os modelos de ML são frequentemente treinados em dados de fontes potencialmente pouco confiáveis, proporcionando aos adversários a oportunidade de manipulá-los através da inserção de amostras cuidadosamente elaboradas no conjunto de treino. Um trabalho recente mostrou que este tipo de ataque, chamado ataque de envenenamento, permite aos adversários inserirem portas traseiras ou trojans no modelo, permitindo um comportamento malicioso com gatilhos externos simples na inferência, sem acesso direto ao próprio modelo (ataque de caixa preta). Como ilustração, suponha que o adversário quer criar uma porta traseira em imagens para que todas as imagens com a porta traseira sejam mal classificadas para certas classes-alvo. Por exemplo, o adversário adiciona um símbolo especial (chamado gatilho) a cada imagem de um «sinal de parada», volta a rotulá-los para «sinal de rendimento» e adiciona estas imagens modificadas aos dados de treino. Como resultado, o modelo treinado neste conjunto de dados modificado aprenderá que qualquer imagem que contenha este gatilho deve ser classificada como «sinal de rendimento», independentemente do que seja a imagem. Se tal modelo for implantado, o adversário pode facilmente enganar o classificador e causar acidentes ao colocar tal gatilho em qualquer sinal de estrada real.

Exemplos contraditórios são entradas especializadas criadas com o objetivo de confundir uma rede neural, resultando na classificação incorreta de uma dada entrada. Estas entradas notórias são indistinguíveis para o olho humano, mas fazem com que a rede não consiga identificar o conteúdo da imagem. Há vários tipos de tais ataques, no entanto, aqui o foco é no ataque de sinal de gradiente rápido, que é um ataque não segmentado cujo objetivo é causar má classificação a qualquer outra classe que não a real. É também um ataque de caixa branca, o que significa que o atacante tem acesso completo aos parâmetros do modelo a ser atacado, a fim de construir um exemplo adversário.

O objetivo deste exercício de laboratório é mostrar como a robustez dos modelos de ML pode ser auditada contra ataques de evasão e envenenamento de dados e como estes ataques influenciam a qualidade do modelo. Um evento de aprendizagem de acompanhamento destina-se a atenuar estas ameaças: Prática: Reforçar a segurança e a robustez do BC

Esboço

Nesta sessão de laboratório, irá recriar os riscos de segurança para modelos de visão de IA e também mitigar contra o ataque. Especificamente, os estudantes vão

  1. Treinar 2 modelos de aprendizagem automática no popular conjunto de dados MNIST.
  2. Criar exemplos contraditórios contra ambos os modelos e avaliá-los no modelo-alvo e no outro modelo, a fim de medir a transferibilidade das amostras adversarias.
  3. Envenenar um modelo de classificação durante a sua fase de treino com entradas traseiras.
  4. Estudar como influencia a precisão do modelo.

Os alunos vão formar grupos de dois e trabalhar em equipa. Um grupo tem de entregar apenas uma documentação/solução.

Agradecimentos

O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.