I dag syftar begreppet ”data science” i det engelska språket på arbetet med att utvinna kunskap från data. Kanske kan ”turbobeslutsstöd med statistikdopning” fungera som översättning? Men det blir förstås lite långt.
Nog om begreppet i sig, vi håller oss till data science i resten av den här artikeln. Det är hur som helst språkligt problematiskt, se faktaruta.
Datachocken: Lagringen räcker inte till.
Det är enkelt att svara på varför data science är hett just nu. Det beror på boomen för beslutsstöd, dataanalys och big data under senare år. Många ägnar sig åt de områdena så det passar bra med en ny benämning. Det anger att det är ett nytt område som formas, även om flera av beståndsdelarna är kända sedan tidigare. Dessutom blir det enklare att väcka intresse i den akademiska världen. Det är lättare att få till nya kurser inom ett område som har ett eget namn.
Begreppet data science innefattar tre områden, med tillhörande mjukvara, som smälter samman:
- Statistisk analys. Personer som arbetat inom det här fältet har ofta använt mjukvara från leverantörer som Sas Institute och SPSS.
- Affärsanalys. Verksamhetsfolk som av tradition använt Microsofts kalkylprogram Excel, eller i vissa fall kanske till och med databasprogrammet Access.
- Utveckling och arkitektur. Utvecklare som använt relationsdatabaser som Oracle, databasspråket sql och specialiserade beslutsstödsverktyg för att analysera data.
En ”data scientist” bör behärska alla de här områdena, samt krydda med till exempel kunskaper om databasmodellering, samt om nya tekniklösningar som Hadoop och, inte minst, om programmering.
Michael Natusch som har titeln Head of data science på Pivotal, ett företag i EMC-koncernen, sammanfattar kravet på en ”data scientist” så här:
– Att kunna hantera statistisk analys, affärsanalys och utveckling för att lösa affärsproblem. Och att ständigt vara nyfiken och undersöka data på nya sätt för att lösa problem. Och att skriva kod.
Han återkommer åtskilliga gånger till begreppet maskininlärning. När han blir ombedd att beskriva vad maskininlärning är i en mening blir svaret följande:
– Det är statistik i stor skala.
En titt på Wikipedia ger följande definition: ”En gren av artificiell intelligens som handlar om att konstruera system som kan lära sig saker från data”. På ren svenska: Mjukvara som klarar av att analysera data och dra slutsatser om dem.
Det låter nästan som en definition av ”data science”, om man bortser från personen som är ”data scientist”.
Nya leverantörer som Pivotal och Cloudera, samt även etablerade som Teradata och Sas Institute och breda jättar som Oracle, SAP, IBM och Microsoft står inför samma utmaning inom ”data science”: att tillhandahålla verktyg, i form av mjukvara, som gör att vem som helst kan bli en ”data scientist”.
Det är som gjort för förvirring med begreppet ”data science”. En direkt översättning till svenska ger ”datavetenskap”, men det är inte vad ”data science” syftar på. Lägg till det att begreppet ”data science” i det engelska språket tidigare syftade på just ”datavetenskap”, alltså ”läran och vetenskapen om beräkningars utförande, företrädesvis de som utförs av datorer med hjälp av programvara”, för att citera Wikipedia.
Kanske är begreppet ”dataanalyskunskap” det som ligger närmast. Men för närvarande är det nog bäst att säga ”data science” även på svenska, för att bli förstådd.