Reinforcement Learning | Universitetet i Stavanger

Fakta

Emnekode

DAT605

Versjon

Vekting (stp)

Semester undervisningsstart

Høst

Antall semestre

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Tilbys av

Det teknisk-naturvitenskapelige fakultet,

Institutt for data- og elektroteknologi

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

Kunstig intelligens i denne epoken har blitt synonymt med overvåket og uovervåket læring. Veiledet læring er best egnet for saker som har et stort sett med eksempler på input og ønskede utganger, og målet er å lære basert på slike eksempler for å generere resultater fra fremtidige, foreløpig usett input. Tekstklassifisering, bildeklassifisering, objektplassering, regresjonsproblemer og sentimentanalyse er områder hvor overvåket læring er mye brukt. Mens uovervåket læring tar sikte på å oppdage en skjult struktur av dataene uten å måtte ha en spesifikk distinksjon i inngangs- og utdataverdiene. Slike læringsteknikker brukes ofte for gruppering av data som prøver å kombinere dataelementer til et sett med klynger som avslører relasjoner i data.

Forsterkende læring ligger et sted mellom veiledet og uovervåket former for læringsteknikker. På den ene siden bygger den på etablerte metoder for overvåket læring for funksjonstilnærming, stokastisk gradientnedstigning og tilbakepropagasjon for å lære datarepresentasjon, men på den annen side krever det ikke tilsyn for å oppdage skjulte mønstre og relasjoner i data. Forsterkende læring fokuserer først og fremst på problemet med automatisk læring av optimale beslutninger over tid i et komplekst miljø ved å bygge på fremskritt innen informatikk, atferdspsykologi og nevrovitenskap. På grunn av sin fleksibilitet og generalitet utvikler RL-feltet seg veldig raskt og tiltrekker seg mye oppmerksomhet, både fra forskere som prøver å forbedre eksisterende metoder eller lage nye metoder og fra praktikere som er interessert i å løse sine problemer på den mest effektive måten.

Målgruppen for dette kurset vil være fagfolk og studenter som arbeider eller er interessert i områder innen kunstig intelligens, maskinlæring, spillteori, kontrollteori, operasjonsforskning, informasjonsteori, simuleringsbasert optimalisering, multiagentsystemer, svermintelligens og statistikk.

Læringsutbytte

Konsepter dekket i dette kurset vil gi relevant teoretisk og praktisk programmeringskunnskap. Hvert emne demonstreres ved hjelp av enkle eksempler fra den virkelige verden. Følgende emner vil bli dekket i løpet av kursets varighet:

Kunnskap:

Topic 1: Reinforcement Learning - an introduction
Topic 2: Course Materials, Supplementary Resources, and Development Environment
Topic 3: Tabular Methods
Topic 4: Dynamic Programming
Topic 5: Monte-Carlo & Temporal Difference and Q-Learning
Topic 6: Policy Gradients
Topic 7: The Actor-Critic Method
Topic 8: Deep Q-Network - an Overview
Topic 9: Further Exploration

Ferdigheter:

Gode programmeringskunnskaper
Kunnskap om grunnleggende algebra, sannsynlighet og statistikk
Python programmeringskunnskap
Forståelse av Numpy, Matplotlib

Generell kompetanse:

Artificial Neural Networks
Deep Learning
Convolutional Neural Networks

Forkunnskapskrav

Ingen

Anbefalte forkunnskaper

DAT120 Grunnleggende programmering, DAT540 Introduksjon til datavitenskap, STA500 Sannsynlighetsregning og statistikk 2

Eksamen / vurdering

Prosjektrapport og muntlig eksamen

Vurderingsform	Vekting	Varighet	Karakter	Hjelpemiddel
Prosjektrapport (gruppe)	1/2		Bokstavkarakterer
Muntlig eksamen	1/2		Bokstavkarakterer	Ingen hjelpemidler tillatt

Prosjektarbeid i grupperProsjektet gjennomføres i grupper. Prosjektarbeid skal utføres i de gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til foreleser.En prosjektrapport inkludert kildekode, og en muntlig eksamen bidrar til karakteren.Dersom en student stryker i prosjektarbeidet, må han/hun ta det på nytt neste gang emnet foreleses.

Vilkår for å gå opp til eksamen/vurdering

Innlevereingsoppgaver

Gjennom semesteret arbeider studentene individuelt med 2 oppgaver. Disse oppgavene er obligatoriske og må bestås innen kunngjort frist slik at studenten har rett til å gå opp til eksamen.

Fravær på grunn av sykdom eller andre årsaker skal meldes til laboratoriepersonellet så snart som mulig. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppdrag på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.

Fagperson(er)

Emneansvarlig:

Antorweep Chakravorty

Instituttleder:

Tom Ryen

Arbeidsformer

The work will consist of 4 hours of lecture and 2 hours of laboratory work.

Students are expected to spend an additional 4-8 hours a week on self-study, group discussions and development work.

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet

Data Science - master i teknologi/siv.ing.

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Pensumlisten finner du i Leganto

Reinforcement Learning (DAT605)