Fiska inte tills du får napp...

Det gäller också att inte sätta krokben för sig själv genom att vara alltför övertygad om att hitta de samband som man väntar sig. Den som letar alltför målmedvetet och delar upp materialet i fler och fler undergrupper kommer att hitta en massa intressanta samband konstaterar Dan Hedlin.

– Det kallas för datafiske och risken är stor att de samband som dyker upp är falska.

För att inte låta sig luras är det viktigt att man helst har ett starkt teoretiskt stöd för det samband man letar efter. Därför rekommenderar han att man inte går igenom all data utan alltid sparar en datakälla som kan fungera som en testgrupp. När man har hittat ett samband så kollar man det i testgruppen, och om sambandet inte finns där, då finns det nog inte i verkligheten heller.

Läs också: IBM gör det enklare för företag att använda Watson

– Det klassiska exempelet är ju medicinsk forskning när man ska se om ett läkemedel har någon effekt. Då räcker det inte med att se att några patienter som får det blir bättre – det kanske de hade blivit ändå för att sjukdomen läker ut exempelvis. Därför måste man alltid ha två grupper där den ena får läkemedlet och inte den andra och de själva inte vet vad de får. Om det skiljer sig åt får man bra stöd för att kunna dra slutsatser, säger Dan Hedlin.


Tänk på att verkligheten ständigt rör på sig

Stora datamängder är inte konstanta, det säger sig självt. Hela tiden fylls det på med ny information. Inte minst märks det för den som söker i data på internet och i sociala medier där själva insamlingen av data förändras efterhand. Ett exempel som brukar lyftas fram är Googles verktyg Google Flu trends som genom att ha koll på sökningar om influensa ska visa var influensan härjar.

I början blev det en hel del uppståndelse när verktyget gav en relativt bra bild av spridningen men efter några år har den blivit allt mindre exakt. I en artikel i vetenskapstidskriften Science pekar ett antal forskare på olika faktorer som orsakat förändringen. En av dem är att Google uppdaterar sina algoritmer i snitt en gång om dagen och på så vis förändras hur data samlas in hela tiden. Och sedanGoogle infört sökförslag redan när man fyller i sökfältet kan det påverka personer att i högre grad söka på influensarelaterade begrepp.

– Internet är oorganiserat till sin natur. Datakällor ändrar sig hela tiden, det tillkommer nya och andra försvinner och olika grupper attraheras och kommer in vid olika tillfällen, säger Dan Hedlin.

Han påpekar att om man exempelvis använder data från en tjänst så är det ofta så att det är en viss grupp användare som finns just där.

– Då kan man inte använda den infon för hela befolkningen utan bara för den gruppen användare. Det måste man hela tiden ha klart för sig.

Daniel Gillblad konstaterar att det är svårt att avgöra vilken typ av prediktiva analyser sin går att göra.

– När verkligheten hela tiden rör på sig vet man inte vad som gäller för datainsamlandet om ett par månader eller ett par år. Då riskerar man att definitivt gå väldigt snett, säger han.

Sida 2 / 2

Innehållsförteckning

Fakta

De amerikanska forskarna Ernest Davis och Gary Marcus har i en artikel i Financial Review lyft fram ett antal problem med big data. Först radar de upp åtta begränsningar där man riskerar att gå fel och sedan avslutar de med ett nionde problem – att big data är en hajp som de inte tycker inte motsvaras av verkligheten. Här är en sammanfattning av begränsningarna: 
1. Det är enkelt att hitta korrelationer men det innebär inte att det går att utläsa om det finns något orsakssamband. 
2. Det går inte att lösa naturvetenskapliga problem enbart med hjälp av big data. Även om det kan vara ett bra verktyg så krävs det att man alltid börja med en analys som bygger på en förståelse för exempelvis fysik eller kemi. 
3. En del big data-verktyg är enkla att överlista. Exempelvis finns program som bedömer studentuppsatser baserat på meningslängd och vilken typ av ord som används på ett sätt som överensstämmer med de bedömningar som gjorts av människor. Men när studenterna förstår mekanismerna så är risken stor att de bara anpassar sitt skrivande efter det. 
4. Analyser som till en början ser ut att vara väldigt stabila håller inte alltid över tid. Ett exempel på det är Goggle Flu Trends som nämns i artikeln ovan. 
5. Det kan uppstå en ekokammareffekt där informationen studsar runt och förstärker sig själv. Det kan exempelvis handla om verktyg som Google Translate som för att lära sig språkmönster använder sig av att jämföra samma text på olika språk - exempelvis genom att titta på samma uppslagsord på olika språk i Wikipedia. Men samtidigt används ofta Google Translate för att översätta uppslagsord in i Wikipedia. Det gör att fel som funnits i Google Translate från början går in i Google Translate igen och förstärks. 
6. För många korrelationer. Om man letar hundra gånger för att se om två kurvor samvarierar så kommer de att dyka upp fem tillfällen där de ser ut att verka statistiskt signifikanta även om det egentligen inte finns något samband. 
7. Big data kan ge skenbart tillförlitliga svar på imprecisa frågor. Exempelvis har försök att ranka personer efter deras historiska betydelse genom att analysera data från Wikipedia inte hamnat helt rätt. Allt för att frågan i grunden är alltför vag. 
8. Big data är som bäst när man ska analysera sådant som är vanligt förekommande men betydligt sämre när det gäller mindre vanliga saker. När exempelvis text analyseras används ofta så kallade trigram, tre ord i rad. Men datamängderna är helt enkelt aldrig tillräckligt stora för att rymma alla de möjliga kombinationer av tre ord som människor kan tänkas använda eftersom språket konstant förnyas.