Prática: Reforçar a segurança e a robustez do BC

Informações administrativas

Titulo	Defesas contra a Evasão e a Intoxicação na Aprendizagem de Máquinas
Duração	90 min
Módulo	B
Tipo de aula	Prático
Foco	Ética — Inteligência Artificial de confiança
Tópico	Evasão e envenenamento da aprendizagem de máquinas

Palavras-chave

Mitigação, Robustness, Exemplos adversários, Portas traseiras, Intoxicação, Comerciamento,

Objetivos de aprendizagem

Adquirir competências práticas para mitigar os problemas de integridade da aprendizagem automática
Conceber modelos robustos de aprendizagem automática
Atenuar a evasão (exemplos contraditórios)
Mitigar as portas traseiras (envenenamento)
Avaliar o compromisso entre robustez e precisão do modelo

Preparação prevista

Eventos de aprendizagem a serem concluídos antes

Obrigatório para os Estudantes

Python,
Scikit,
Pandas,
ARTE,
virtual-env,
Portas traseiras,
Envenenamento,
Exemplos contraditórios,
Limpeza neural,
Treino adversário,
Avaliação do modelo

Facultativo para Estudantes

Nenhuma.

Referências e antecedentes para estudantes

Materiais das aulas

Instruções para os professores

A primeira parte deste exercício laboratorial em Practical: Aplicar quadros de auditoria sobre como auditar a robustez dos modelos de ML contra ataques de evasão e envenenamento de dados. Este evento de aprendizagem atual é sobre mitigar estas ameaças com treino adverso (contra a evasão) e Neural Cleanse (contra o envenenamento).

Embora os modelos de aprendizagem automática (ML) estejam a ser cada vez mais confiáveis para tomar decisões em áreas diferentes e variadas, a segurança dos sistemas que utilizam esses modelos tornou-se uma preocupação crescente. Em particular, os modelos de ML são frequentemente treinados em dados de fontes potencialmente pouco confiáveis, proporcionando aos adversários a oportunidade de manipulá-los através da inserção de amostras cuidadosamente elaboradas no conjunto de treino. Um trabalho recente mostrou que este tipo de ataque, chamado ataque de envenenamento, permite aos adversários inserirem portas traseiras ou trojans no modelo, permitindo um comportamento malicioso com gatilhos externos simples na inferência, sem acesso direto ao próprio modelo (ataque de caixa preta). Como ilustração, suponha que o adversário quer criar uma porta traseira em imagens para que todas as imagens com a porta traseira sejam mal classificadas para certas classes-alvo. Por exemplo, o adversário adiciona um símbolo especial (chamado gatilho) a cada imagem de um «sinal de parada», volta a rotulá-los para «sinal de rendimento» e adiciona estas imagens modificadas aos dados de treino. Como resultado, o modelo treinado neste conjunto de dados modificado aprenderá que qualquer imagem que contenha este gatilho deve ser classificada como «sinal de rendimento», independentemente do que seja a imagem. Se tal modelo for implantado, o adversário pode facilmente enganar o classificador e causar acidentes ao colocar tal gatilho em qualquer sinal de estrada real.

Exemplos contraditórios são entradas especializadas criadas com o objetivo de confundir uma rede neural, resultando na classificação incorreta de uma dada entrada. Estas entradas notórias são indistinguíveis para o olho humano, mas fazem com que a rede não consiga identificar o conteúdo da imagem. Há vários tipos de tais ataques, no entanto, aqui o foco é no ataque de sinal de gradiente rápido, que é um ataque não segmentado cujo objetivo é causar má classificação a qualquer outra classe que não a real. É também um ataque de caixa branca, o que significa que o atacante tem acesso completo aos parâmetros do modelo a ser atacado, a fim de construir um exemplo adversário.

Esboço

Nesta sessão de laboratório, irá recriar os riscos de segurança para modelos de visão de IA e também mitigar contra o ataque. Especificamente, os estudantes vão

Atenuar a evasão com treino adverso;
Atenuar o envenenamento com a limpeza neuronal;
Relatar a precisão do ataque e a precisão do modelo quando estas mitigações são aplicadas.

Os alunos vão formar grupos de dois e trabalhar em equipa. Um grupo tem de entregar apenas uma documentação/solução.

Agradecimentos

O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.

Plano de aula sobre o SURF

Página do Wikiwijs