Administrativ information
Titel | Hyperparameterinställning |
Varaktighet | 60 |
Modul | B |
Typ av lektion | Handledning |
Fokus | Tekniskt – Djupt lärande |
Ämne | Hyperparameterinställning |
Nyckelord
Hyperparameterjustering, aktiveringsfunktioner, förlust, epoker, batchstorlek,
Lärandemål
- Undersöka effekter på kapacitet och djup
- Erfarenhet med varierande epoker och batchstorlekar
- Testa olika aktiveringsfunktioner och inlärningsfrekvenser
Förväntad förberedelse
Lärande händelser som ska slutföras innan
Obligatoriskt för studenter
Ingen.
Valfritt för studenter
Ingen.
Referenser och bakgrund för studenter
- John D Kelleher och Brain McNamee. (2018), Grundläggande maskininlärning för prediktiv dataanalys, MIT Press.
- Michael Nielsen. (2015), Neurala nätverk och djupt lärande, 1. Beslutande press, San Francisco CA USA.
- Charu C. Aggarwal. (2018), Neurala nätverk och djupt lärande, 1. Springer
- Antonio Gulli och Sujit Pal. Djupinlärning med Keras, Packt, [ISBN: 9781787128422].
Rekommenderas för lärare
Ingen.
Lektionsmaterial
Instruktioner för lärare
- Denna handledning kommer att introducera eleverna till grunderna i hyperparameter tunning för ett artificiellt neuralt nätverk. Denna handledning kommer att bestå av efterföljande av flera hyperparametrar och sedan utvärdering med samma modeller konfigurationer som föreläsningen (Lecture 3). Denna handledning kommer att fokusera på systematisk modifiering av hyperparametrar och utvärdering av de diagnostiska tomterna (med förlust – men detta kan lätt ändras för noggrannhet eftersom det är ett klassificeringsproblem) med hjälp av Census Dataset. I slutet av denna handledning (steg för steg exempel) studenter förväntas slutföra en praktisk med ytterligare utvärdering för rättvisa (baserat på delmängd prestanda utvärdering).
- Anmärkningar:
- Det finns förbehandling på datauppsättningen (ingår i anteckningsboken), men detta är ett minimum för att få datauppsättningen att fungera med ANN. Detta är inte heltäckande och omfattar inte någon utvärdering (grundläggande/rättvishet).
- Vi kommer att använda diagnostiska tomter för att utvärdera effekten av hyperparameter tunning och i synnerhet ett fokus på förlust, där det bör noteras att den modul vi använder för att rita förlusten är matplotlib.pyplot, så axeln skalas. Detta kan innebära att betydande skillnader inte kan framstå som signifikanta eller vice versa när man jämför förlusten av tränings- eller testdata.
- Vissa friheter för byggnadsställningar presenteras, till exempel användningen av Epochs först (nästan som en regulariseringsteknik) samtidigt som Batch-storleken hålls konstant.
- För att ge tydliga exempel (dvs. övermontering) kan några ytterligare tweaks till andra hyperparametrar ha inkluderats för att ge tydliga diagnostiska plottar för exempel.
- När en rimlig kapacitet och djup har identifierats, är detta liksom andra hyperparametrar låsta för följande exempel där det är möjligt.
- Slutligen kan några av cellerna ta lite tid att träna, även med GPU-åtkomst.
- Studenterna kommer att presenteras med flera steg för handledningen:
- Steg 1: Några grundläggande förbehandling för datauppsättningen Vuxenräkning
- Steg 2: Kapacitet och djup tunnning (inklusive följande exempel):
- Ingen konvergens
- Undermontering
- Översittning
- Konvergens
- Steg 3: Epoker (över och under träning – utan att införa det som en formell regleringsteknik)
- Steg 4: Aktiveringsfunktioner (med avseende på prestanda – utbildningstid och i vissa fall förlust)
- Steg 5: Utbildningsnivå (inklusive följande exempel):
- SGD Vanilla
- SGD med inlärningshastighet sönderfall
- SGD med momentum
- Adaptiv inlärningsgrad:
- RMSProp
- AdaGrad
- Adam
- Delmålen för dessa fem delar är att ge studenterna exempel och erfarenhet av tunning hyperparametrar och utvärdera effekterna med hjälp av diagnostiska tomter.
Konturer
Varaktighet (min) | Beskrivning |
---|---|
5 | Förbehandling av data |
10 | Kapacitet och djup tunnning (under och över montering) |
10 | Epok (under och över träning) |
10 | Satsstorlekar (för bullerdämpning) |
10 | Aktiveringsfunktioner (och deras effekter på prestanda – tid och noggrannhet) |
10 | Inlärningsfrekvens (vanilj, LR Decay, Momentum, Adaptive) |
5 | Recap på några stapelhyperparametrar (ReLu, Adam) och tunnning av andra (kapacitet och djup). |
Erkännanden
Masterprogrammet Human-Centered AI har samfinansierats av Fonden för ett sammanlänkat Europa i Europeiska unionen inom ramen för Grant CEF-TC-2020–1 Digital Skills 2020 EU-IA-0068.