Informações administrativas
Titulo | Associação e Inferência de Atributo Ataques a Modelos de Aprendizagem de Máquinas |
Duração | 90 min |
Módulo | B |
Tipo de aula | Prático |
Foco | Ética — Inteligência Artificial de confiança |
Tópico | Ataques de privacidade à aprendizagem automática |
Palavras-chave
Auditoria, privacidade da aprendizagem automática, teste de inferência de membro, teste de inferência de atributos,
Objetivos de aprendizagem
- Melhorar as competências práticas de auditoria das garantias de privacidade (e confidencialidade) da aprendizagem automática
- Como aplicar ataques de adesão e atribuir ataques de inferência para auditoria de privacidade ML
Preparação prevista
Eventos de aprendizagem a serem concluídos antes
- Palestra: Privacidade e aprendizagem automática
- Palestra: Introdução à privacidade e ao risco
- Palestra: Avaliação do modelo
- Palestra: Inferência e previsão
- Palestra: Encaixe e otimização do modelo
- Prática: Encaixe e otimização do modelo
- Palestra: Preparação e exploração de dados
- Prática: Preparação e exploração de dados
- Palestra: Redes neurais
- Palestra: Privacidade
Obrigatório para os Estudantes
- Python
- Scikit
- Pandas
- ARTE
- virtual-env
- Ataques de membros
- Inferência de atributos
- Avaliação do modelo
Facultativo para Estudantes
Nenhuma.
Referências e antecedentes para estudantes
- Uma visão geral da privacidade na aprendizagem automática
- Privacidade de dados e aprendizagem de máquinas de confiança
- Ataques de inferência de adesão contra modelos de aprendizagem automática
- Análise de privacidade abrangente da aprendizagem profunda: Ataques passivos e ativos de inferência de caixa branca contra a aprendizagem centralizada e federada
- Extração de dados de formação a partir de grandes modelos linguísticos
- Aprendizagem automática com privacidade de membro utilizando regularização adversa
- A partilha secreta: Avaliar e testar memorização não intencional em redes neurais
Recomendado para professores
Materiais das aulas
Instruções para os professores
Este exercício laboratorial tem como objetivo desenvolver as competências práticas dos alunos de auditar as garantias de privacidade dos modelos de aprendizagem automática. Os alunos devem compreender que os ataques de adesão supõem o conhecimento da amostra alvo a ser testada, o que nem sempre é viável. Ainda assim, o sucesso da inferência de adesão pode antecipar fugas de privacidade mais graves no futuro.
Os modelos de aprendizagem automática são frequentemente treinados em dados confidenciais (ou pessoais, sensíveis). Por exemplo, tal modelo pode prever o salário de um indivíduo a partir de seus outros atributos (como educação, local de vida, raça, sexo, etc.). Um equívoco comum é que esses modelos não são considerados dados pessoais, mesmo que os seus dados de formação sejam pessoais (na verdade, os dados de formação podem ser a recolha de registos sobre indivíduos), uma vez que são calculados a partir de informações agregadas derivadas dos dados de treino sensíveis (por exemplo, a média dos gradientes nas redes neurais ou a entropia/contagem de rótulos em florestas aleatórias). O objetivo desta sessão de laboratório é mostrar que os modelos de aprendizagem automática podem ser considerados dados pessoais e, por conseguinte, é muito provável que o seu tratamento seja regulamentado em muitos países (por exemplo, pelo RGPD na Europa). Os alunos irão projetar ataques de privacidade para testar se os modelos treinados vazam informações sobre os seus dados de treino e também atenuam estes ataques. Por exemplo, os ataques de inferência de membro visam detetar a presença de uma determinada amostra nos dados de treino de um modelo-alvo a partir dos modelos e/ou da sua saída. Os ataques de caixa branca podem aceder tanto aos modelos treinados (incluindo os seus parâmetros) como à saída do modelo (ou seja, as suas previsões), enquanto os modelos black-box só podem aceder às previsões do modelo para uma determinada amostra. Os ataques de inferência de atributos visam prever um atributo sensível que falta a partir da saída do modelo de aprendizagem de máquina que é treinado em, bem como todos os outros atributos.
Um evento de aprendizagem de acompanhamento destina-se a atenuar estas ameaças: Prática: Aplicar e avaliar técnicas de preservação da privacidade
Esboço
Nesta sessão de laboratório, irá medir os riscos de privacidade para modelos de IA e também mitigar os ataques. Especificamente, os estudantes vão
- treinar um modelo de aprendizagem automática (Random Forest) no conjunto de dados para adultos para prever o atributo de rendimento binário no conjunto de dados
- medir os riscos de privacidade através do lançamento de um ataque de adesão ao modelo treinado para verificar se a presença de qualquer indivíduo nos dados do treino só pode ser detetada a partir da previsão do modelo (ataque de caixa negra)
- ataque de inferência de atributo de lançamento no modelo treinado para verificar se o atributo ausente (sensível) pode ser inferido a partir de alguns dados auxiliares que se assemelham aos dados originais e à saída do modelo treinado (ataque da caixa preta)
Os alunos vão formar grupos de dois e trabalhar em equipa. Um grupo tem de entregar apenas uma documentação/solução.
Agradecimentos
O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.