Reinforcement Learning (DAT605)

Dette kurset vil introdusere AI og optimalisering på en morsom, enkel, interessant, oppslukende og praktisk måte. Optimaliseringsproblemer blir viktige på tvers av flere disipliner. Ferdighetene oppnådd gjennom dette kurset vil tillate bruk av effektive optimaliseringsstrategier i arbeidsprosesser. Disse kan inkludere optimalisering av komplekse maskinlæringsmodeller som gjør dem mer effektive, lage utforskende modeller som uten opplæring kan evaluere en situasjon og gradvis ta positive beslutninger, utforske økonomiske data for å oppdage mønstre som fører til gunstige resultater og andre.


Dette er emnebeskrivelsen for studieåret 2024-2025

Fakta

Emnekode

DAT605

Versjon

1

Vekting (stp)

5

Semester undervisningsstart

Høst

Antall semestre

1

Vurderingssemester

Høst

Undervisningsspråk

Engelsk

Innhold

NB! Dette er et valgemne og dersom det er færre enn 10 studenter oppmeldt pr. 20. august, kan dette medføre at emnet ikke tilbys.

Kunstig intelligens i denne epoken har blitt synonymt med overvåket og uovervåket læring. Veiledet læring er best egnet for saker som har et stort sett med eksempler på input og ønskede utganger, og målet er å lære basert på slike eksempler for å generere resultater fra fremtidige, foreløpig usett input. Tekstklassifisering, bildeklassifisering, objektplassering, regresjonsproblemer og sentimentanalyse er områder hvor overvåket læring er mye brukt. Mens uovervåket læring tar sikte på å oppdage en skjult struktur av dataene uten å måtte ha en spesifikk distinksjon i inngangs- og utdataverdiene. Slike læringsteknikker brukes ofte for gruppering av data som prøver å kombinere dataelementer til et sett med klynger som avslører relasjoner i data.

Forsterkende læring ligger et sted mellom veiledet og uovervåket former for læringsteknikker. På den ene siden bygger den på etablerte metoder for overvåket læring for funksjonstilnærming, stokastisk gradientnedstigning og tilbakepropagasjon for å lære datarepresentasjon, men på den annen side krever det ikke tilsyn for å oppdage skjulte mønstre og relasjoner i data. Forsterkende læring fokuserer først og fremst på problemet med automatisk læring av optimale beslutninger over tid i et komplekst miljø ved å bygge på fremskritt innen informatikk, atferdspsykologi og nevrovitenskap. På grunn av sin fleksibilitet og generalitet utvikler RL-feltet seg veldig raskt og tiltrekker seg mye oppmerksomhet, både fra forskere som prøver å forbedre eksisterende metoder eller lage nye metoder og fra praktikere som er interessert i å løse sine problemer på den mest effektive måten.

Målgruppen for dette kurset vil være fagfolk og studenter som arbeider eller er interessert i områder innen kunstig intelligens, maskinlæring, spillteori, kontrollteori, operasjonsforskning, informasjonsteori, simuleringsbasert optimalisering, multiagentsystemer, svermintelligens og statistikk.

Læringsutbytte

Konsepter dekket i dette kurset vil gi relevant teoretisk og praktisk programmeringskunnskap. Hvert emne demonstreres ved hjelp av enkle eksempler fra den virkelige verden. Følgende emner vil bli dekket i løpet av kursets varighet:

Kunnskap:

  • Topic 1: Reinforcement Learning - an introduction
  • Topic 2: Course Materials, Supplementary Resources, and Development Environment
  • Topic 3: Tabular Methods
  • Topic 4: Dynamic Programming
  • Topic 5: Monte-Carlo & Temporal Difference and Q-Learning
  • Topic 6: Policy Gradients
  • Topic 7: The Actor-Critic Method
  • Topic 8: Deep Q-Network - an Overview
  • Topic 9: Further Exploration

Ferdigheter:

  • Gode programmeringskunnskaper
  • Kunnskap om grunnleggende algebra, sannsynlighet og statistikk
  • Python programmeringskunnskap
  • Forståelse av Numpy, Matplotlib

Generell kompetanse:

  • Artificial Neural Networks
  • Deep Learning
  • Convolutional Neural Networks

Forkunnskapskrav

Ingen

Anbefalte forkunnskaper

DAT120 Grunnleggende programmering, DAT540 Introduksjon til datavitenskap, STA500 Sannsynlighetsregning og statistikk 2

Eksamen / vurdering

Prosjektrapport og muntlig eksamen

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Prosjektrapport (gruppe) 1/2 Bokstavkarakterer
Muntlig eksamen 1/2 Bokstavkarakterer Ingen hjelpemidler tillatt

Prosjektarbeid i grupperProsjektet gjennomføres i grupper. Prosjektarbeid skal utføres i de gruppene som tildeles og publiseres. Fravær på grunn av sykdom eller andre årsaker skal snarest meldes til foreleser.En prosjektrapport inkludert kildekode, og en muntlig eksamen bidrar til karakteren.Dersom en student stryker i prosjektarbeidet, må han/hun ta det på nytt neste gang emnet foreleses.

Vilkår for å gå opp til eksamen/vurdering

Innlevereingsoppgaver

Gjennom semesteret arbeider studentene individuelt med 2 oppgaver. Disse oppgavene er obligatoriske og må bestås innen kunngjort frist slik at studenten har rett til å gå opp til eksamen.

Fravær på grunn av sykdom eller andre årsaker skal meldes til laboratoriepersonellet så snart som mulig. Man kan ikke forvente at det foretas bestemmelser om gjennomføring av laboratorieoppdrag på andre tidspunkter med mindre det er avtalt på forhånd med laboratoriepersonellet.

Fagperson(er)

Instituttleder:

Tom Ryen

Arbeidsformer

The work will consist of 4 hours of lecture and 2 hours of laboratory work.

Students are expected to spend an additional 4-8 hours a week on self-study, group discussions and development work.

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Data Science - master i teknologi/siv.ing.

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Pensumlisten finner du i Leganto