Reinforcement Learning (DAT605)
Dette kurset vil introdusere AI og optimalisering på en morsom, enkel, interessant, oppslukende og praktisk måte. Optimaliseringsproblemer blir viktige på tvers av flere disipliner. Ferdighetene oppnådd gjennom dette kurset vil tillate bruk av effektive optimaliseringsstrategier i arbeidsprosesser. Disse kan inkludere optimalisering av komplekse maskinlæringsmodeller som gjør dem mer effektive, lage utforskende modeller som uten opplæring kan evaluere en situasjon og gradvis ta positive beslutninger, utforske økonomiske data for å oppdage mønstre som fører til gunstige resultater og andre.
Dette er emnebeskrivelsen for studieåret 2024-2025. Merk at det kan komme endringer.
Emnekode
DAT605
Versjon
1
Vekting (stp)
5
Semester undervisningsstart
Høst
Antall semestre
1
Vurderingssemester
Høst
Undervisningsspråk
Engelsk
Innhold
NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.
Kunstig intelligens i denne epoken har blitt synonymt med overvåket og uovervåket læring. Veiledet læring er best egnet for saker som har et stort sett med eksempler på input og ønskede utganger, og målet er å lære basert på slike eksempler for å generere resultater fra fremtidige, foreløpig usett input. Tekstklassifisering, bildeklassifisering, objektplassering, regresjonsproblemer og sentimentanalyse er områder hvor overvåket læring er mye brukt. Mens uovervåket læring tar sikte på å oppdage en skjult struktur av dataene uten å måtte ha en spesifikk distinksjon i inngangs- og utdataverdiene. Slike læringsteknikker brukes ofte for gruppering av data som prøver å kombinere dataelementer til et sett med klynger som avslører relasjoner i data.
Forsterkende læring ligger et sted mellom veiledet og uovervåket former for læringsteknikker. På den ene siden bygger den på etablerte metoder for overvåket læring for funksjonstilnærming, stokastisk gradientnedstigning og tilbakepropagasjon for å lære datarepresentasjon, men på den annen side krever det ikke tilsyn for å oppdage skjulte mønstre og relasjoner i data. Forsterkende læring fokuserer først og fremst på problemet med automatisk læring av optimale beslutninger over tid i et komplekst miljø ved å bygge på fremskritt innen informatikk, atferdspsykologi og nevrovitenskap. På grunn av sin fleksibilitet og generalitet utvikler RL-feltet seg veldig raskt og tiltrekker seg mye oppmerksomhet, både fra forskere som prøver å forbedre eksisterende metoder eller lage nye metoder og fra praktikere som er interessert i å løse sine problemer på den mest effektive måten.
Målgruppen for dette kurset vil være fagfolk og studenter som arbeider eller er interessert i områder innen kunstig intelligens, maskinlæring, spillteori, kontrollteori, operasjonsforskning, informasjonsteori, simuleringsbasert optimalisering, multiagentsystemer, svermintelligens og statistikk.
Læringsutbytte
Konsepter dekket i dette kurset vil gi relevant teoretisk og praktisk programmeringskunnskap. Hvert emne demonstreres ved hjelp av enkle eksempler fra den virkelige verden. Følgende emner vil bli dekket i løpet av kursets varighet:
Kunnskap:
- Topic 1: Reinforcement Learning - an introduction
- Topic 2: Course Materials, Supplementary Resources, and Development Environment
- Topic 3: Tabular Methods
- Topic 4: Dynamic Programming
- Topic 5: Monte-Carlo & Temporal Difference and Q-Learning
- Topic 6: Policy Gradients
- Topic 7: The Actor-Critic Method
- Topic 8: Deep Q-Network - an Overview
- Topic 9: Further Exploration
Ferdigheter:
- Gode programmeringskunnskaper
- Kunnskap om grunnleggende algebra, sannsynlighet og statistikk
- Python programmeringskunnskap
- Forståelse av Numpy, Matplotlib
Generell kompetanse:
- Artificial Neural Networks
- Deep Learning
- Convolutional Neural Networks
Forkunnskapskrav
Anbefalte forkunnskaper
Eksamen / vurdering
Prosjektrapport og muntlig eksamen
Vurderingsform | Vekting | Varighet | Karakter | Hjelpemiddel |
---|---|---|---|---|
Prosjektrapport (gruppe) | 1/2 | Bokstavkarakterer | ||
Muntlig eksamen | 1/2 | Bokstavkarakterer | Ingen hjelpemidler tillatt |
Prosjektarbeid i grupperProsjektet gjennomføres i grupper. Prosjektarbeid skal utføres i de gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til foreleser.En prosjektrapport inkludert kildekode, og en muntlig eksamen bidrar til karakteren.Dersom en student stryker i prosjektarbeidet, må han/hun ta det på nytt neste gang emnet foreleses.
Vilkår for å gå opp til eksamen/vurdering
Gjennom semesteret arbeider studentene individuelt med 2 oppgaver. Disse oppgavene er obligatoriske og må bestås innen kunngjort frist slik at studenten har rett til å gå opp til eksamen.
Fravær på grunn av sykdom eller andre årsaker skal meldes til laboratoriepersonellet så snart som mulig. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppdrag på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.
Fagperson(er)
Emneansvarlig:
Antorweep ChakravortyInstituttleder:
Tom RyenArbeidsformer
The work will consist of 4 hours of lecture and 2 hours of laboratory work.
Students are expected to spend an additional 4-8 hours a week on self-study, group discussions and development work.