Det är väl lika bra att börja med den svåraste frågan av alla. Hur ska man översätta "data science"?
– Det är en svår fråga, det finns ingen riktigt bra översättning. Den masterutbildning som vi planerar här i Stockholm ska innefatta delar som statistik, maskininlärning, programmering med språk som R, datalager, tekniska plattformar som Hadoop, samt även traditionell databaskunskap, till exempel om frågespråket sql, säger Henrik Boström, professor på institutionen för data- och systemvetenskap på Stockholms universitet.
Läs mer: Data science - därför är det stekhett just nu
Masterutbildningen är tänkt att starta hösten 2016. Målgruppen är studenter som har en kandidatexamen i statistik eller data- och systemvetenskap. Redan nu finns det en populär kurs i datautvinning (data mining), med 120 deltagare och den är tänkt att tillsammans med ytterliggare en kurs i maskininlärning ingå i masterutbildningen. Även på andra håll i Sverige är initiativ under uppsegling. Högskolan i Skövde planerar till exempel en masterutbildning inom data science till hösten 2015.
I början av december anordnades en tvådagarsträff i Stockholm, med ett 60-tal deltagare från flera svenska universitet och högskolor, samt från företag, se faktaruta. Det fanns två huvudsyften med träffen:
– Dels fick folk berätta om aktuella forskningsprojekt och planer, och dels var det diskussioner inom specifika områden som data science för life science och att starta en nationell forskarskola inom data science. Det var mycket givande. Det händer mycket och det är viktigt att samordna satsningarna nationellt.
Nästa led i arbetet är att ha en ny träff. Än så länge är inget datum bestämt.
– Det var ett visst jobb med arrangemanget, säger Henrik Boström och låter förstå att någon annan gärna får ta på sig uppgiften att ordna nästa träff.
Rent konkret, vilka är de grundläggande kunskaperna som bör läras ut på en speciell utbildning inom data science?
– Jag tror det behövs mer statistiskt tänkande. Och kunskaper om hur man samlar in och bearbetar data, och om hur man bygger och utvärderar modeller. Vidare om hur man ska tolka och förstå resultaten av analyser.
Som exempel på hur resultat kan tolkas olika nämner Boström vikten av att förstå de mått som används för att utvärdera modeller. Det är till exempel skillnad på att använda en modell för rangordning av alternativ och en modell för uppskattning av hur sannolikt det är att olika alternativ ska inträffa. Vad gäller modeller nämner han prediktiv analys:
– Det finns inte en metod eller en typ av modell som alltid är den bästa. Man måste förstå olika typer av modeller för att kunna välja den bästa för en viss typ av analys.
Det verkar sannolikt att det finns gott om uppslag för innehållet för utbildningen inom data science.
Man kan tycka att "datavetenskap" borde vara en bra översättning av "data science". Problemet är att benämningen "datavetenskap" är upptagen, som en översättning av det engelska begreppet "computer science".
På träffen om data science i Stockholm deltog representanter för Stockholms universitet, KTH, Chalmers, Uppsala universitet, Linköpings universitet, Högskolan i Borås, Blekinge tekniska högskola, Högskolan i Skövde, Högskolan i Halmstad, samt företag som Astrazeneca, Scania och Saab.