Informações administrativas
Titulo | Afinação de hiperparâmetros |
Duração | 60 |
Módulo | B |
Tipo de aula | Palestra |
Foco | Técnico — Aprendizagem Aprofundada |
Tópico | Afinação de hiperparâmetros |
Palavras-chave
Ajuste do hiperparâmetro, funções de ativação, perda, épocas, tamanho do lote,
Objetivos de aprendizagem
- Investigar os efeitos sobre a capacidade e a profundidade
- Experientes com diferentes épocas e tamanhos dos lotes
- Experimente diferentes funções de ativação e taxas de aprendizagem
Preparação prevista
Eventos de aprendizagem a serem concluídos antes
Obrigatório para os Estudantes
Nenhuma.
Facultativo para Estudantes
Nenhuma.
Referências e antecedentes para estudantes
- John D. Kelleher e Cérebro McNamee. (2018), Fundamentals of Machine Learning for Predictive Data Analytics, MIT Press.
- Michael Nielsen. (2015), Redes Neurais e Aprendizagem Profunda, 1. Imprensa de determinação, São Francisco CA EUA.
- Charu C. Aggarwal. (2018), Redes Neurais e Aprendizagem Profunda, 1. Springer
- António Gulli, Sujit Pal. Aprendizagem profunda com Keras, Packt, [ISBN: 9781787128422].
Recomendado para professores
Nenhuma.
Materiais das aulas
Instruções para os professores
Esta palestra irá apresentar aos alunos os fundamentos da afinação hiperparâmetro. Utilizaremos o Conjunto de Dados do Censo como exemplos da utilização e dos resultados da afinação de vários hipermetros. O conjunto de dados do Censo Adulto é um problema de classificação binária. Mais sobre este conjunto de dados no tutorial correspondente. O objetivo desta palestra é introduzir vários hiperparametros com exemplos de como modificar estes hiperparametros pode ajudar ou dificultar a aprendizagem. Além disso, fornecemos exemplos de subajuste e excesso de capacidade, nariz e ganhos de desempenho (tempo de treino e, em alguns casos, precisão/perda) quando cada um dos hiperparametros são tunnados. Utilizaremos parcelas diagnósticas para avaliar o efeito da afinação do hiperparâmetro e, em particular, um enfoque na perda, onde deve-se notar que o módulo que usamos para traçar a perda é matplotlib.pyplot, portanto o eixo é dimensionado. Isto pode significar que as diferenças significativas podem não parecer significativas ou vice-versa quando se compara a perda dos dados do treino ou do teste. Além disso, algumas liberdades para andaimes são apresentadas, como o uso de Epochs primeiro (quase como uma técnica de regularização) enquanto mantém o tamanho do lote constante. Idealmente, estes seriam unidos, mas para esta palestra eles estão separados.
Esboço
Duração (Min) | Descrição |
---|---|
5 | Panorâmica dos dados |
10 | Afinação da capacidade e da profundidade (sob e sobremontagem) |
10 | Épocas (sob e sobreformação) |
10 | Tamanhos dos lotes (para supressão do ruído) |
10 | Funções de ativação (e seus efeitos no desempenho — tempo e precisão) |
10 | Taxas de aprendizagem (vanilla, LR Decay, Momentum, Adaptive) |
5 | Recapitular sobre o processo de passagem para a frente |
Agradecimentos
O programa de mestrado em IA centrado no ser humano foi cofinanciado pelo Mecanismo Interligar a Europa da União Europeia ao abrigo de subvenções CEF-TC-2020-1 Competências Digitais 2020-EU-IA-0068.