
Har konsumtionen av margarin per capita och skilsmässostatistiken i Maine mellan 1999 och 2009 ett samband? Nej, det låter självklart otroligt men faktum är att kurvorna är nästan identiska. Börjar man gräva i big data så kommer mängder av sådana här korrelationer att dyka upp och en del av dem kommer inte att vara lika lätta att avfärda. Det är lätt att hamna snett när man ska tolka och analysera big data – här är fyra vanliga fallgropar.
Att se samband som inte finns

En av de största fällorna i all statistik är att feltolka två kurvor som följer varandra och tro att den ena orsakar den andra. Om man letar i stora mängder data kommer sådana samvarierande kurvor att dyka upp hela tiden. Ibland är det lätt att avfärda kopplingen som i exempelt ovan som kommer från Tyler Vigen, student på Harvard, som på sin sajt samlat ihop exempel på dråpliga korrelationer.
– Fåniga korrelationer kan man avfärda direkt. Däremot är det frestande att börja dra slutsatser när man hittar överraskande och spännande korrelationer i en datamängd. Det vet jag att jag själv också gjort, säger Dan Hedlin, professor i statistsik vid Stockholms universitet.
Han får medhåll av Daniel Gillblad som forskar om big data på forskningsinstitutet Sics.
– Det är väldigt lätt att se samband och i efterhand hitta på en förklaring, säger han och ger ett exempel:

– Säg att man hittar en korrelation mellan hög mobiltelefonanvändning och huvudvärk. Då kan man inte dra slutsatsen att mobiltelefoner ger huvudvärk. Ofta kan det finnas ytterligare en allmän variabel som vi inte kan se – kanske tyder den höga mobiltelefonanvändningen på allmän stress som i sin tur orsakar huvudvärk till exempel.
Ställ frågan först om svaret ska bli rätt
För att undvika att gå igång på alla spännande samband som man tycker sig skönja i datamängderna finns ett generellt råd – ställ frågan först.
– Genom att ställa upp en hypotes innan och ställa de frågor som krävs så undviker man att titta på fel saker, säger Dan Hedlin.
Han pekar på hur den amerikanska läkemedelsbranschen arbetar.
– Innan de sätter igång med en klinisk studie så måste de meddela tillsynsmyndigheterna vad de ska undersöka annars får de inte klartecken.
Samtidigt finns det en risk med att studier där man inte hittar de samband man letar efter läggs undan eftersom de inte uppfyller hypotesen.
Läs också: Ikea tar säkerhetsvägen till big data
– När olika personer lägger dem i byrålådan så kommer ju inte de här icke-sambanden ut någonstans. Om någon då hittar ett samband i en studie så ser det starkare ut än det borde göra eftrsom man inte känner till alla de studier som inte hittat det sambandet. säger Dan Hedlin.
– Men i och med att läkemedelsindustrin rapporterar in alla sina försök så undviker de den fällan.
De amerikanska forskarna Ernest Davis och Gary Marcus har i en artikel i Financial Review lyft fram ett antal problem med big data. Först radar de upp åtta begränsningar där man riskerar att gå fel och sedan avslutar de med ett nionde problem – att big data är en hajp som de inte tycker inte motsvaras av verkligheten. Här är en sammanfattning av begränsningarna:
1. Det är enkelt att hitta korrelationer men det innebär inte att det går att utläsa om det finns något orsakssamband.
2. Det går inte att lösa naturvetenskapliga problem enbart med hjälp av big data. Även om det kan vara ett bra verktyg så krävs det att man alltid börja med en analys som bygger på en förståelse för exempelvis fysik eller kemi.
3. En del big data-verktyg är enkla att överlista. Exempelvis finns program som bedömer studentuppsatser baserat på meningslängd och vilken typ av ord som används på ett sätt som överensstämmer med de bedömningar som gjorts av människor. Men när studenterna förstår mekanismerna så är risken stor att de bara anpassar sitt skrivande efter det.
4. Analyser som till en början ser ut att vara väldigt stabila håller inte alltid över tid. Ett exempel på det är Goggle Flu Trends som nämns i artikeln ovan.
5. Det kan uppstå en ekokammareffekt där informationen studsar runt och förstärker sig själv. Det kan exempelvis handla om verktyg som Google Translate som för att lära sig språkmönster använder sig av att jämföra samma text på olika språk - exempelvis genom att titta på samma uppslagsord på olika språk i Wikipedia. Men samtidigt används ofta Google Translate för att översätta uppslagsord in i Wikipedia. Det gör att fel som funnits i Google Translate från början går in i Google Translate igen och förstärks.
6. För många korrelationer. Om man letar hundra gånger för att se om två kurvor samvarierar så kommer de att dyka upp fem tillfällen där de ser ut att verka statistiskt signifikanta även om det egentligen inte finns något samband.
7. Big data kan ge skenbart tillförlitliga svar på imprecisa frågor. Exempelvis har försök att ranka personer efter deras historiska betydelse genom att analysera data från Wikipedia inte hamnat helt rätt. Allt för att frågan i grunden är alltför vag.
8. Big data är som bäst när man ska analysera sådant som är vanligt förekommande men betydligt sämre när det gäller mindre vanliga saker. När exempelvis text analyseras används ofta så kallade trigram, tre ord i rad. Men datamängderna är helt enkelt aldrig tillräckligt stora för att rymma alla de möjliga kombinationer av tre ord som människor kan tänkas använda eftersom språket konstant förnyas.