Da The Economist ville regne ut hvor mange reelle dødsfall koronapandemien har medført verden over, så de til en algoritme utviklet av tidligere doktorgradsstudent ved UiS, Berent Lunde.
Rett før sommeren publiserte The Economist artikkelen There have been 7m-13m excess deaths worldwide during the pandemic. "Ved å bruke kjente data fra 121 variabler, alt fra registrerte dødsfall til demografi, har vi bygget et mønster av korrelasjoner som lar oss fylle ut hullene der tall mangler. Modellen vår antyder at covid-19 allerede har krevd 7,1 til 12,7 millioner liv. Vårt sentrale estimat er at 10 millioner mennesker som ellers ville vært i live har dødd," står det på lederplass i det aktuelle nummeret av magasinet. Med andre ord, artikkelen i The Economist estimerer med at dødstallet etter pandemien er tre ganger høyere enn de offisielle tallene.
For å komme fram til disse tallene har journalistene brukt en metodikk utviklet av tidligere doktorgradsstudent ved UiS, Berent Lunde. Lunde tok doktorgraden sin ved Institutt for matematikk og fysikk. Han disputerte rett før jul i fjor.
Finne balansen i modellen
Grunnlaget for artikkelen er en statistisk modell som oppdateres kontinuerlig og beskrives i detalj på How we estimated the true death toll of the pandemic. Koden bak modellen er tilgjengelig på Github, der The Economist kombinerer sine egne data med algoritmen som Lunde har lagt ut som såkalt open source, åpen kildekode. Algoritmen trener på data, og returnerer så den statistiske modellen som blir benyttet.
Lunde tok bachelor- og mastergrad ved Universitetet i Bergen, før han begynte å jobbe som aktuar i forsikringsbransjen. Gjennom et engasjement ved UiB, fikk han jobbet inngående med det siste innen maskinlæring.
– Det ble veldig klart for meg at det fantes nye og spennende metoder innen maskinlæring som ville kunne dra enorm fordel av generelle teoretiske beregninger kalt informasjonskriterier, gitt at disse kunne bli utviklet for de nye metodene. Dette viste seg å være svært vanskelig, men ungt og naivt pågangsmot har hjulpet, sier han.
Da Lunde fikk tilbud om et doktorgradsstipend ved UiS, ble han overbevist av muligheten til å jobbe med UiS-professor Tore Selland Kleppe, som han kjente fra studiene i Bergen.
– Én av metodene som vinner mange maskinlæringskonkurranser er algoritmen Gradient Tree Boosting. Algoritmen trener på data for å finne den riktige balansen i utregningsmodeller. Det er en metode som er i bruk overalt, forklarer Lunde.
For å bruke denne algoritmen, må du må være ekspert på maskinlæring og forstå nøyaktig hva du skal finjustere. Det krever store ressurser, både av brukeren, men også når det kommer til datakapasitet. Lunde har i samarbeid med Kleppe og professor Hans J. Skaug ved UiB utviklet algoritmen som heter aGTBoost (Adaptive and Automatic Gradient Tree Boosting Computations) ved å utvikle og legge inn informasjonskriterier som gjør det helt automatisk å finne den rette balansen i modellen. Dette gjør det svært mye enklere for brukeren.
Om metoden
For beregningsmodeller basert på såkalt "gradient boosting" ønsker man å finne en balanse i modeller som har tilstrekkelig antall velvalgte kategorier til å gi gode beregninger også utenfor tilfellene som er dekket av datamaterialet. Samtidig vil man unngå at antallet kategorier i modellen blir så stort at man driver overtilpasning. En god balanse mellom disse ytterpunktene er svært vanskelig å finne.
Eksempel: La oss si at du ønsker å beregne prisen på en usolgt leilighet basert på variabler som størrelse, beliggenhet og antall rom. Du sitter med et datamateriale, som viser alle leiligheter solgt i Norge de siste årene, og har oppgitt både prisen og de forskjellige variablene for alle disse leilighetene. Metoden deler opp «rommet» av alle mulige kombinasjoner i en rekke kategorier, 3-roms leiligheter i Oslo mellom 50 og 60 kvadratmeter, eller 4-roms leiligheter i Stavanger mellom 80 og 100 kvadratmeter. Alle leiligheter som faller i samme kategori blir så beregnet til å ha samme pris, la oss si gjennomsnittsprisen for alle leilighetene innenfor denne kategorien i datamaterialet.
Men tar modellen hensyn til faktorer som ikke er dekket av datamaterialet? Og hvordan utelukker man støy og overtilpasning i modellen? Litt forenklet involverer metoden en lang rekke spørsmål av typen: «Gitt en av kategoriene som allerede er valgt; får vi mer nøyaktige beregninger ved å splitte denne i to kategorier med egne beregninger?»
I artikkelen i The Economist, brukte journalistene data fra 121 variabler. Datamaterialet var alt fra nasjonale rapporterte dødsfall, demografi og geografi. Lundes maskinlæringsalgoritme leverte en modell med akkurat den rette balansen. Algoritmen bruker det teoretiske informasjonskriteriet til å bygge opp passe komplekse modeller på en helt automatisk måte. Kriteriet er også så generelt at det kan brukes på flere måter innenfor algoritmen, eksempelvis både hvorvidt en gitt kategori skal splittes, og når algoritmen bør stoppe. Når algoritmen så blir benyttet på et nytt problem med nye data, vil den igjen finne en ny og tilpasset balanse, på første forsøk og helt automatisk.
Rett sted til rett tid
The Economist er et internasjonalt nyhetsmagasin med 1,3 millioner lesere hver uke. Journalistikken deres dekker hele verden, men Storbritannia, USA og Kina vies mest plass. Hvordan føles det for en fersk doktor at arbeidet hans når ut over hele verden?
– Min indre motivasjon er å kunne forstå et problem på et dypere nivå. Men selvsagt er det deilig å leve i en tid der maskinlæring er i vinden, og der det du jobber med blir lagt merke til og anvendt, sier Lunde.
– Når koden min brukes av andre, skaper det et slags samhold. Det er veldig fint.
Nå ønsker han å videreutvikle metoden, og gjøre den enda bedre. Neste steg på veien er å bygge den inn i et tilsvarende program, XGBoost. Målet er å nå ut til flest mulig.
Håndtere praktiske problemer
UiS-professor Tore Selland Kleppe var Lundes veileder under doktorgradsarbeidet, og han har også bidratt i utviklingen av aGTBoost.
– Det er selvsagt svært artig at metodikk utviklet på vårt institutt brukes i praksis, og at den samtidig når millioner av lesere. Men kanskje mer interessant er samspillet mellom teoretiske og helt generelle beregninger, kall det gjerne matematisk statistisk grunnforskning, og anvendelsen av disse til å håndtere mer praktiske problemstillinger som ellers ville være vanskelig og svært tidkrevende, sier Kleppe.
For å gjøre framskritt innen det praktiske trengs det ofte utvikling av mer teoretisk og abstrakt natur, mener han.
– Grunnforskningen gjør at vi forstår det praktiske problemet på et dypere, mer generelt og fundamentalt nivå, og denne økte kunnskapen kan bygges inn for å gjøre algoritmene smartere slik at de igjen løser praktiske problemer raskere, enklere og mer elegant, sier Kleppe.
Berent Lunde er glad for at han valgte å ta doktorgraden sin ved UiS, og trekker særlig fram samarbeidet med veileder Kleppe. Så er det selvsagt en ekstra bonus at metodikken han har jobbet med de siste tre årene blir lagt merke til.
– Jeg har gjort noe jeg synes er fint og vakkert, og hatt litt flaks med timingen. Det betyr mye at koden er til hjelp for andre, og at jeg på den måten har bidratt til å gjøre verden til et bittelitt bedre sted, avslutter Lunde.
Vil du vite mer om Lundes arbeid? Preprint finner du her, selve koden finner du på Github.
Tekst: Kjersti Riiber