Informações administrativas
Titulo | Defesas contra a Evasão e a Intoxicação na Aprendizagem de Máquinas |
Duração | 90 min |
Módulo | B |
Tipo de aula | Prático |
Foco | Ética — Inteligência Artificial de confiança |
Tópico | Evasão e envenenamento da aprendizagem de máquinas |
Palavras-chave
Mitigação, Robustness, Exemplos adversários, Portas traseiras, Intoxicação, Comerciamento,
Objetivos de aprendizagem
- Adquirir competências práticas para mitigar os problemas de integridade da aprendizagem automática
- Conceber modelos robustos de aprendizagem automática
- Atenuar a evasão (exemplos contraditórios)
- Mitigar as portas traseiras (envenenamento)
- Avaliar o compromisso entre robustez e precisão do modelo
Preparação prevista
Eventos de aprendizagem a serem concluídos antes
- Palestra: Segurança e robustez
- Prática: Aplicar quadros de auditoria
- Palestra: Avaliação do modelo
- Palestra: Inferência e previsão
- Palestra: Encaixe e otimização do modelo
- Prática: Encaixe e otimização do modelo
- Palestra: Preparação e exploração de dados
- Prática: Preparação e exploração de dados
- Palestra: Redes neurais
Obrigatório para os Estudantes
- Python,
- Scikit,
- Pandas,
- ARTE,
- virtual-env,
- Portas traseiras,
- Envenenamento,
- Exemplos contraditórios,
- Limpeza neural,
- Treino adversário,
- Avaliação do modelo
Facultativo para Estudantes
Nenhuma.
Referências e antecedentes para estudantes
- Webinar HCAIM sobre a abordagem europeia para uma IA fiável, segura e fiável (disponível no YouTube)
- Exemplos Adversários e Formação Adversarial
- A robustez adversária — Teoria e Prática
- Para avaliar a robustez das redes neurais
- Limpeza neural
- Rumo a modelos de aprendizagem profunda resistentes a ataques adversários
Recomendado para professores
Materiais das aulas
Instruções para os professores
A primeira parte deste exercício laboratorial em Practical: Aplicar quadros de auditoria sobre como auditar a robustez dos modelos de ML contra ataques de evasão e envenenamento de dados. Este evento de aprendizagem atual é sobre mitigar estas ameaças com treino adverso (contra a evasão) e Neural Cleanse (contra o envenenamento).
Embora os modelos de aprendizagem automática (ML) estejam a ser cada vez mais confiáveis para tomar decisões em áreas diferentes e variadas, a segurança dos sistemas que utilizam esses modelos tornou-se uma preocupação crescente. Em particular, os modelos de ML são frequentemente treinados em dados de fontes potencialmente pouco confiáveis, proporcionando aos adversários a oportunidade de manipulá-los através da inserção de amostras cuidadosamente elaboradas no conjunto de treino. Um trabalho recente mostrou que este tipo de ataque, chamado ataque de envenenamento, permite aos adversários inserirem portas traseiras ou trojans no modelo, permitindo um comportamento malicioso com gatilhos externos simples na inferência, sem acesso direto ao próprio modelo (ataque de caixa preta). Como ilustração, suponha que o adversário quer criar uma porta traseira em imagens para que todas as imagens com a porta traseira sejam mal classificadas para certas classes-alvo. Por exemplo, o adversário adiciona um símbolo especial (chamado gatilho) a cada imagem de um «sinal de parada», volta a rotulá-los para «sinal de rendimento» e adiciona estas imagens modificadas aos dados de treino. Como resultado, o modelo treinado neste conjunto de dados modificado aprenderá que qualquer imagem que contenha este gatilho deve ser classificada como «sinal de rendimento», independentemente do que seja a imagem. Se tal modelo for implantado, o adversário pode facilmente enganar o classificador e causar acidentes ao colocar tal gatilho em qualquer sinal de estrada real.
Exemplos contraditórios são entradas especializadas criadas com o objetivo de confundir uma rede neural, resultando na classificação incorreta de uma dada entrada. Estas entradas notórias são indistinguíveis para o olho humano, mas fazem com que a rede não consiga identificar o conteúdo da imagem. Há vários tipos de tais ataques, no entanto, aqui o foco é no ataque de sinal de gradiente rápido, que é um ataque não segmentado cujo objetivo é causar má classificação a qualquer outra classe que não a real. É também um ataque de caixa branca, o que significa que o atacante tem acesso completo aos parâmetros do modelo a ser atacado, a fim de construir um exemplo adversário.
Esboço
Nesta sessão de laboratório, irá recriar os riscos de segurança para modelos de visão de IA e também mitigar contra o ataque. Especificamente, os estudantes vão
- Atenuar a evasão com treino adverso;
- Atenuar o envenenamento com a limpeza neuronal;
- Relatar a precisão do ataque e a precisão do modelo quando estas mitigações são aplicadas.
Os alunos vão formar grupos de dois e trabalhar em equipa. Um grupo tem de entregar apenas uma documentação/solução.
Agradecimentos
O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.