Nu annonseras det i USA efter ”data scientists” – som om det var något nytt. I Sverige har vi haft utbildningar i datavetenskap sedan 1950-talet.
Men – det är inte samma sak.
Det som vi kallar för datavetenskap heter i engelskspråkiga länder ”computer science”.
”Data scientist” är något relativt nytt. Det är en specialitet. För att bli ”data scientist” behöver du inte behärska processorkonstruktion, datornätverk eller systemprogrammering. Så vad går specialiteten ut på?
Det har att göra med ”big data”. En ”data scientist” ska kunna bolla med enorma datamängder. Anjal Bhambhri, chef för ”big data” på IBM, säger:
– En ”data scientist” är någon som är undersökande, som kan stirra på data och upptäcka trender.
Det kan handla om att upptäcka växande trender medan de fortfarande är obetydliga, eller att hitta svaga, men uppenbara mönster i stora datamängder.
En ”data scientist” bör se sig som detektiv eller underrättelseanalytiker, om jag förstår saken rätt. Att samla in, kategorisera och rapportera data räcker inte. Man ska ta reda på saker som man inte visste att man letade efter.
Är då detta något nytt?
Så kallad datautvinning (”data mining”) har funnits i över tio år. Alla större företag har analytiker som går igenom siffrorna, drar slutsatser och kommer med förslag.
Finns det någon anledning att hitta på trendiga fraser som ”big data” och ”data scientist”?
Det nya är, vad jag förstår, datavolymen och verktygen.
Hårddiskar i terabyteklass kostar inte mycket numera, och företagen fyller dem med egna data. Ute på nätet finns det hur mycket data som helst. Företag som Gavagai och Recorded Future visar på sätt att hitta trender och opinioner med metoder som var science fiction för tio år sedan.
Traditionellt har man först samlat in data, sedan lagt dem i en databas, prydligt sorterade, och sedan har man analyserat.
Nu blir det allt vanligare att fånga data i flykten. En rätt ny teknik är ”stream computing” där inkommande data analyseras i realtid. Det är ibland enda sättet att hinna med. Men tekniken är bara verktyg. Det som krävs av en ”data scientist” är först och främst nyfikenhet och initiativkraft.
På svenska är beteckningen som sagt upptagen. Vi har datavetenskap, men det motsvarar ”computer science”.
Vi har hamnat i en tidsfälla. Sverige sitter kvar i 1950-talet då IBM döpte om ”computing” till ”data processing”. De första svenska datorerna kallades för kalkylatorer, sedan blev det datamaskiner, ännu senare datorer. Annars hade vi kanske haft personkalkylatorer på jobbet, och universiteten hade undervisat i kalkylatorvetenskap.
”Kalkylering” hade varit ett smidigt ord att ta till för det svåröversatta ”computing”.
Om man inte vill ta till ”databehandling” – vilket väl strängt taget är vad en ”data scientist” är specialist på.