Du kan dölja din identitet på internet med hjälp av anonymitetsservrar och internetkaféer. Men även om du noggrant suddar ut alla spår tillbaka till dig och din dator så kan det ändå gå att peka ut dig.

Ditt sätt att skriva röjer dig.

En grupp kanadensiska forskare har utvecklat en ny metod att spåra skribenter.

Vilka ord du använder, inte minst småorden, hur långa meningar du skriver, hur ofta du gör nytt stycke – allt ingår i något som på engelska kallas för ditt writeprint. På svenska kallas det för skriftprofil.

Är du medveten om risken med skriftprofiler så kan du försöka förställa dig. Det är inte så lätt som man kan tro. Många av våra skriftspråkliga egenheter är omedvetna.

Skriftprofiler är inget nytt. De äldsta artiklarna i ämnet är från 1800-talet. Litteraturvetare har räknat ord och mätt meningslängd. Klassiska är utredningarna av vem som egentligen skrev William Shakespeares skådespel.

Kriminalvetenskapen hakade på. På 1950-talet hade vi den omtalade Helanderaffären, då biskopen i Strängnäs, Dick Helander, dömdes för att ha skrivit anonyma brev. Språkprofessorn Tore Johannisson jämförde de anonyma breven med texter som Helander odiskutabelt hade skrivit och kom fram till att Helander var författaren.

I dag har datorerna kommit in. Dels för att det ofta är e-post som analyseras, dels för att det är datorer som gör grovgörat.

Anonymitet på internet är en rättighet. Anonymitet behövs för att människor ska våga ge öppenhet åt känslig information.

Det finns undantag. Hotelser, mobbning och olaga förföljelse via internet är kriminella handlingar där gärningsmannen inte kan åberopa rätt till anonymitet. Andra brott som begås under anonymitet är spridning av barnpornografi.

Forskarna Farkhund Iqbal, Rachid Hadjidj, Benjamin Fung och Mourad Debbabi vid universitetet i Montreal har utvecklat en ny metod, Authorminer, för att identifiera författare av e-post.

De har testat sin metod på de tusentals mejl som beslagtogs från Enron efter den stora skandalen. Testkörningar visar på en träffsäkerhet på 60 till 80 procent.

Forskarna hävdar att det beror på att de ser till en kombination av egenskaper som sammanvägs.

Det kan låta självklart, men den hittills vanligaste metoden, ett så kallat beslutsträd, innebär att olika variabler utvärderas en i taget. Textmassan slussas genom en trädformad struktur av frågor där svaret på varje fråga avgör vilken fråga som kommer näst. I slutänden besvaras en ja/nej-fråga som ”Har Dick Helander skrivit detta anonyma brev?”.

Beslutsträd fungerar bra i många andra sammanhang, men när det gäller författarskap har de nackdelen att de inte ser till totalintrycket.

En annan metod kallas för stödvektormaskin. En enkel liknelse är att man först ställer ett antal frågor om texten. Svaren sprids ut i ett tänkt rum efter matematiska kriterier. Stödvektormaskinen gör en analys som delar upp det tänkta rummet i två delar med maximal åtskillnad mellan två svarsalternativ.

Den del av rummet som är störst står då troligen för det rätta svaret.

Stödvektormaskinen sammanväger de olika frågorna, men Iqbal, Hadjidj, Fung och Debbabi skriver att den är en ”svart låda”. Den kan ge rätt svar, men förklarar inte hur det gick till.

Authorminer är gjort för att motivera sina bedömningar.

I ett första steg analyseras mejl från en grupp av skribenter. Här handlar det alltså om mejl med känd avsändare. Informationen används för att skräddarsy en profil för varje skribent.

Forskarna skiljer mellan fyra huvudgrupper av egenskaper:

  1. Lexikala egenskaper omfattar inte bara ordval, utan också meningslängd, genomsnittlig ordlängd och ordförråd.
  2. Syntaktiska egenskaper om-fattar bland annat de så kallade funktionsorden – ord som ”om”, ”så”, ”och”, ”före” och ”eller” – och hur de används.
  3. Strukturella egenskaper omfattar styckeindelning, styckens längd, meddelandens längd och hälsningsord.
  4. Innehållsmässiga egenskaper handlar om nyckelord som är typiska för ämnesområdet. Två personer som skriver om flugfiske använder säkert samma termer, men inte lika ofta.

Det intressanta är att forskarnas profil ger olika vikt åt olika kännetecken hos olika skribenter.

I ett andra stadium pekar metoden ut kännetecken som är gemensamma för flera skribenter. Även om A använder ordet ”ehuru” oftare än de flesta är det kännetecknet oanvändbart ifall B också gör det.

I det tredje stadiet används skriftprofilerna för att identifiera författaren till ett anonymt mejl. I det stadiet jämför man alla kartlagda kännetecken i skriftprofilerna med det anonyma mejlet. Enbart hög grad av överensstämmelse räcker inte. Egenskaperna också måste viktas beroende på hur typiska de är för skribenten.

Efter trimning gissar Authorminer alltså rätt i fyra fall av fem.

Så om du vill fortsätta vara anonym, anlita spökskrivare.

Fakta

Authorminer är en metod som är utvecklad av Farkhund Iqbal, Rachid Hadjidj, Benjamin Fung och Mourad Debbabi vid Concordia University i Montreal.

Metoden sammanväger ett antal typiska egenskaper i texter som man vet är skriven av olika personer. Varje person får en skriftprofil.

Vid jämförelse av personers skriftprofil med de anonyma mejlen gäller bedömningen inte bara hur mycket olika egenskaper stämmer överens, utan också hur typiska de olika egenskaperna är för varje enskild skribent. Egenskaper som är typiska för flera skribenter ignoreras.