När hantering av stora datamängder blir vanligare växer kraven på verktyg för att hantera dem. Hittills har ramverket Hadoop varit en vinnare för att över huvud taget kunna hantera data i stora volymer. I nästa steg, när data ska analyseras, är läget mer oklart.

En strategi är att sammanställa datamängder till mer hanterbara storlekar med hjälp av till exempel Hadoop, och sedan använda Excel för att göra analyserna.

En annan väg är att få in flödet av stora datamängder i en traditionell arkitektur för beslutsstöd och hantera analyserna där.

Ytterligare ett sätt är att använda språket R.

R vidareutvecklas av en projektgrupp inom organisationen Gnu. Det brukar beskrivas som ett statistikspråk, men skulle lika gärna kunna kallas ett dataanalysspråk eller beslutsstödsspråk. CS systertidning Computerworld har tittat närmare på R.

Fördelen med R är att det är öppet och gratis. Det är också enkelt att installera. Det finns otroligt många tilläggsmoduler tillgängliga för mer eller mindre specialiserade ändamål. På sajten Comprehensive R Archive Network, cran.r-project.org, finns det till exempel tusentals tilläggsmoduler.

R innehåller väldigt kraftfulla kommandon; att skapa ett beskrivande diagram låter sig till exempel göras med en rad kod. Det finns enkla och kraftfulla kommandon för att läsa in data. Eftersom analyser kan sparas som skript i filer är det ofta enklare att följa och felsöka analyserna i R än i en komplex Excelkalkyl.

Nackdelar då? Det skulle väl vara att R trots allt är ett språk. Den som saknar programmeringsbakgrund kanske känner att det är enklare att använda Excel än att skriva programkod i en textredigerare. Även vana programmerare behöver lära sig lite nya handgrepp med R, men det borde vara ett mindre problem.

Det går att använda R direkt vid en kommandoprompt. Men det finns även gratisverktyg som Rstudio, som förutom prompten också innehåller en textredigerare som gör det enkelt att spara kompletta analyser i separata filer.

Att hantera urval av data från en datavariabel, att skapa olika typer av diagram och mycket annat är lika enkelt. Det krävs naturligtvis att användaren har en viss kännedom om statistik, men utmärkande för kommandon i R är att de känns intuitiva. Den som är beredd att skriva lite kod får mycket gjort på kort tid jämfört med många andra språk och jämfört med att använda kalkylprogram.

Det är kanske inte rimligt att tro att alla med behov av att göra analyser sätter sig ner och skriver egna R-skript. Men eftersom skripten kan sparas och återanvändas går det att distribuera dem till flera användare. Eller så får en specialist ansvara för körningarna av skripten.

En trolig utveckling är att R kommer att integreras mer med andra språk och med olika typer av verktyg. Ett problem är möjligtvis att det är licensierat under gpl 2, vilket påverkar hur det kan användas tillsammans med andra program. Men det finns ofta lösningar som både uppfyller licenskrav och ger en rimlig användbarhet.

Helt klart talar tiden för R. Ju mer data som blir tillgängliga för analys, desto bättre verktyg krävs det för att analysera dem snabbt. Och R är ett sådant verktyg.

Fakta

Om vi förutsätter att data finns i en kommaseparerad textfil kan den läsas in till variabel med följande kommando:

<MONO>minadata <- read.csv(”filnamn.csv”)</MONO>

Nu innehåller variabeln <MONO>minadata</MONO> tabellen som finns i filen, färdig för analys. Följande kommando ger en hel del intressant statistikinformation:

<MONO>summary(minadata)</MONO>

För ytterligare sammanfattande information finns följande kommando:

<MONO>describe(minadata)</MONO>

En resultatmatris med korrelationer mellan olika kolumner med numeriska värden fås med följande kommando:

<MONO>cor(minadata)</MONO>