Datautvinning har jag känt till i många år. Data mining heter det på engelska.
Kan man inte säga informationsutvinning, skrev en läsare och frågade. Kanske är det också skillnad mellan datautvinning och informationsutvinning?
Jag rådfrågade Google, och – där ser man.
Informationsutvinning är, om man får tro Google, ett vanligare ord än datautvinning. 326 mot 280. Det hade jag inte en aning om.
Det var likadant på engelska. Information mining (25 000 sidor) är vanligare än data mining (9 200 sidor).
De svenska webbsidor som skrev om ”informationsutvinning” tillhörde ofta universitet och högskolor. De ger kurser i informationsutvinning, inte i datautvinning.
Vad är då datautvinning?
Det är när dataprogram söker igenom stora datamängder, till exempel försäljningssiffror från en butikskedja, för att hitta intressanta och oväntade samband och mönster – sådant som mänskliga iakttagare har missat.
Datorprogram vet ju varken vad som är intressant eller oväntat, så programmeraren måste beskriva det oväntade och intressanta i en sådan form att det kan mätas i siffror.
Ett klassiskt exempel på datautvinning är den amerikanska stormarknadskedjan som upptäckte att båda blöjförsäljning och ölförsäljning ökade på fredagar.
Detektivarbete uppdagade orsaken: småbarnspapporna handlade på fredagarna. Åtgärd: placera blöjor och öl intill varandra. Resultat: försäljningen av både blöjor och öl ökade. Stormarknaderna förstärkte ett existerande mönster.
Det finns två huvudtyper av datautvinning. Den ena har jag redan beskrivit: man låter ett dataprogram söka igenom datamängderna efter allt som inte är jämngrått. Det kallas på engelska för bottom-up data mining. Man letar data först och drar slutsatser sedan. Den andra sorten kallas för top-down data mining. Då gör man antaganden först och använder tekniken för att bevisa dem – eller motbevisa dem.
Ska man då kalla det för datautvinning eller informationsutvinning?
Det har att göra med skillnaden mellan data och information. Är det någon skillnad? Ibland får jag känslan av att ”information” bara är lite finare än ”data”.
Men så illa är det inte. Folk skiljer mellan information och data av två anledningar.
”Information är data i ett sammanhang” är den ena anledningen. Data är sådant som kan stå i tabeller. Data är sifferuppgifter (Finlands invånarantal är 5 223 442) men också ord och namn som kan presenteras i tabellform: huvudstaden i Norge heter Oslo. Den kemiska förkortningen för syre är O. Enkla, entydiga fakta. Data blir information när det sätts in i ett resonemang, när det svarar på en fråga.
Den internationella standardiseringsorganisationen ISOs definition av data beskriver det som uppgifter som kan behandlas maskinellt. Då kan man ju undra om information alls kan behandlas av datorer. Information är ju det som inte kan behandlas maskinellt. Visserligen talar vi om it, informationsteknik, men ändå.
Det för oss till den andra anledningen.
Vi använder ju sällan våra datorer för att behandla ”data”. Vi skickar e-post, tittar på webbsidor, lyssnar på musik och tittar på bilder.
För datorerna är det naturligtvis bara meningslösa rader med ettor och nollor som bearbetas enligt bestämda regler, men för oss är det information, inte data. Din biljett är klar, mamma hälsar, här är jag framför Taj Mahal.
Så den andra anledningen till att vi talar om information i stället för data är att datorerna inte längre är matematikmaskiner utan ett slags knytpunkter i livet.
Det tar emot att kalla låtsamlingen och fotoalbumet för data.
Åter till data- kontra informationsutvinning.
På engelska använder man ibland ”information mining” för att markera att man inte bara arbetar med text och siffror, utan också med bilder och ljud. Men det är inte den enda skillnaden.
Ingen påstår, såvitt jag vet, att datautvinning och informationsutvinning är två olika tekniker. I stället är det två olika aspekter på samma typ av dataprogram. Programmet som sådant kan bara bearbeta och utvinna data.
Vad som är nytt, oväntat, intressant och användbart kan det inte svara på. Det är först detektivarbetet – _varför_ ökar öl- och blöjförsäljningen på fredagarna – som utvinner information. Och för det behövs människor.
Jämför med ordbehandling. Ordbehandlare är bra att ha, men de skriver inga artiklar.
Det är som datautvinning. För att skriva en artikel behövs en ordbehandlare och en skribent. Det är som informationsutvinning.
(Språksamt)