Informações administrativas
Titulo | Evasão e envenenamento de modelos de aprendizagem automática |
Duração | 90 min |
Módulo | B |
Tipo de aula | Prático |
Foco | Ética — Inteligência Artificial de confiança |
Tópico | Evasão e envenenamento da aprendizagem de máquinas |
Palavras-chave
Exemplo adversário, Backdoor, Robustness, ML Security Audit,
Objetivos de aprendizagem
- Adquirir competências práticas como auditar a robustez dos modelos de aprendizagem automática
- Como implementar evasão (exemplos adversários) e envenenamento/ataques de porta traseira
- Avaliar a degradação do modelo devido a estes ataques
Preparação prevista
Eventos de aprendizagem a serem concluídos antes
- Palestra: Segurança e robustez
- Prática: Reforçar a segurança e a robustez do BC
- Palestra: Avaliação do modelo
- Palestra: Inferência e previsão
- Palestra: Encaixe e otimização do modelo
- Prática: Encaixe e otimização do modelo
- Palestra: Preparação e exploração de dados
- Prática: Preparação e exploração de dados
- Palestra: Redes neurais
Obrigatório para os Estudantes
- Python,
- Scikit,
- Pandas,
- ARTE,
- virtual-env,
- Portas traseiras,
- Envenenamento,
- Exemplos contraditórios,
- Avaliação do modelo
Facultativo para Estudantes
Nenhuma.
Referências e antecedentes para estudantes
- Webinar HCAIM sobre a abordagem europeia para uma IA fiável, segura e fiável (disponível no YouTube)
- Exemplos Adversários e Formação Adversarial
- A robustez adversária — Teoria e Prática
- Ataques práticos da Black-Box contra a aprendizagem de máquinas
- Para avaliar a robustez das redes neurais
- Sapos venenosos! Ataques de envenenamento de rótulos limpos direcionados a redes neuronais
Recomendado para professores
Materiais das aulas
Instruções para os professores
Embora os modelos de aprendizagem automática (ML) estejam a ser cada vez mais confiáveis para tomar decisões em áreas diferentes e variadas, a segurança dos sistemas que utilizam esses modelos tornou-se uma preocupação crescente. Em particular, os modelos de ML são frequentemente treinados em dados de fontes potencialmente pouco confiáveis, proporcionando aos adversários a oportunidade de manipulá-los através da inserção de amostras cuidadosamente elaboradas no conjunto de treino. Um trabalho recente mostrou que este tipo de ataque, chamado ataque de envenenamento, permite aos adversários inserirem portas traseiras ou trojans no modelo, permitindo um comportamento malicioso com gatilhos externos simples na inferência, sem acesso direto ao próprio modelo (ataque de caixa preta). Como ilustração, suponha que o adversário quer criar uma porta traseira em imagens para que todas as imagens com a porta traseira sejam mal classificadas para certas classes-alvo. Por exemplo, o adversário adiciona um símbolo especial (chamado gatilho) a cada imagem de um «sinal de parada», volta a rotulá-los para «sinal de rendimento» e adiciona estas imagens modificadas aos dados de treino. Como resultado, o modelo treinado neste conjunto de dados modificado aprenderá que qualquer imagem que contenha este gatilho deve ser classificada como «sinal de rendimento», independentemente do que seja a imagem. Se tal modelo for implantado, o adversário pode facilmente enganar o classificador e causar acidentes ao colocar tal gatilho em qualquer sinal de estrada real.
Exemplos contraditórios são entradas especializadas criadas com o objetivo de confundir uma rede neural, resultando na classificação incorreta de uma dada entrada. Estas entradas notórias são indistinguíveis para o olho humano, mas fazem com que a rede não consiga identificar o conteúdo da imagem. Há vários tipos de tais ataques, no entanto, aqui o foco é no ataque de sinal de gradiente rápido, que é um ataque não segmentado cujo objetivo é causar má classificação a qualquer outra classe que não a real. É também um ataque de caixa branca, o que significa que o atacante tem acesso completo aos parâmetros do modelo a ser atacado, a fim de construir um exemplo adversário.
O objetivo deste exercício de laboratório é mostrar como a robustez dos modelos de ML pode ser auditada contra ataques de evasão e envenenamento de dados e como estes ataques influenciam a qualidade do modelo. Um evento de aprendizagem de acompanhamento destina-se a atenuar estas ameaças: Prática: Reforçar a segurança e a robustez do BC
Esboço
Nesta sessão de laboratório, irá recriar os riscos de segurança para modelos de visão de IA e também mitigar contra o ataque. Especificamente, os estudantes vão
- Treinar 2 modelos de aprendizagem automática no popular conjunto de dados MNIST.
- Criar exemplos contraditórios contra ambos os modelos e avaliá-los no modelo-alvo e no outro modelo, a fim de medir a transferibilidade das amostras adversarias.
- Envenenar um modelo de classificação durante a sua fase de treino com entradas traseiras.
- Estudar como influencia a precisão do modelo.
Os alunos vão formar grupos de dois e trabalhar em equipa. Um grupo tem de entregar apenas uma documentação/solução.
Agradecimentos
O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.