Kalla mig språkteknolog, säger Hercules Dalianis, för datalingvist är jag nog inte.
Datalingvister går på en speciell utbildning, Hercules Dalianis utbildning har han satt ihop allt eftersom.
Hercules Dalianis är universitetslektor och docent på Tekniska högskolan i Stockholm. Han är också vd på företaget Euroling och har hjälpt Nordiska rådet att bevara den nordiska språkgemenskapen på webben.
Han har grekiska föräldrar – mamma från Saloniki, pappa från Aten – och är född i England men uppväxt på Valhallavägen i Stockholm.
Kvar på Valhallavägen
Just innan föräldrarna, som var läkare, skulle packa ihop bohaget och återvända från Sverige till Grekland grep en av 1900-talets mest odugliga militärjuntor makten i Grekland, så familjen Dalianis stannade kvar på Valhallavägen. Att det är på gångavstånd till KTH kan ha påverkat unge Hercules val av lärosäte.
Våningen på Valhallavägen har han kvar, liksom anknytningen till Grekland. Han berättar entusiastiskt om semesterresan med barnen i norra Grekland – ”fullt av fornminnen överallt” – och har också forskningssamarbete med kollegor i Grekland:
– Grekland har blivit framgångsrikt i språkteknologi, berättar Hercules, inom området finns det flera hundra forskare.
Själv har han bidragit med en grekisk version av sin textsammanfattare.
Textsammanfattaren är ett program, utvecklat av Hercules och Martin Hassel, som kortar texter automatiskt. Programmet letar efter de vanligaste orden i textmassan, behåller de meningar som innehåller de orden och stryker resten av meningarna. (Textsammanfattaren finns att pröva gratis på http://swesum.nada.kth.se/index.html.)
Från medicinsk teknik till språk
Den unge Hercules yrkesplaner bekymrade hans föräldrar som tyckte att han borde bli något rejält som ingenjör, advokat eller ekonom. Själv ville han bli astronom. Det slutade med att han studerade på KTH – gångavstånd från hemmet på Valhallavägen – och blev medicinsk-teknisk ingenjör. (”Jag läste lite annat också.”) Vägen till språkteknologi gick genom ett på 1980-talet påkommet intresse för programspråk.
– 1986 kom jag in på en kurs i artificiell intelligens och samtidigt fick jag hem en Mac.
På den tiden var det bara Mac som kunde hantera grekiska bokstäver, vilket behövdes eftersom Hercules mor skrev en bok på grekiska.
– Så min specialitet blev en kombination av språk och artificiell intelligens.
För att forska i något som det gick att få finansiering till konstruerade Hercules ett program som kunde översätta tekniska specifikationer från svenska till engelska. Det är en enklare form av maskinöversättning, eftersom ordförrådet är begränsat och sammanhanget är förutsägbart. Det blev hans doktorsavhandling.
– Sedan fick jag ett postdoc-stipendium till University of Southern Californa, och då tänkte jag att nu kan jag ta det lugnt ett år.
Utvecklade textsammanfattaren
Men det kaliforniska lugnet upphörde när hans handledare tipsade honom om ett nytt programspråk: Pearl, practical extraction and reporting language – ett programspråk som körs på webbservrar och som lämpar sig bra för texthantering.
Återkommen till Sverige som forskarassistent på KTH utvecklade han – i Perl – tillsammans med Martin Hassel textsammanfattaren.
– Nu finns den på tio språk, berättar Hercules:
Svenska, danska, norska, tyska, franska, italienska, engelska, persiska och grekiska.
Vilket inte har hindrat Martin Hassel från att utveckla en ny textsammanfattare, baserad på helt andra principer. Han arbetar också på ett program som kan göra en enda kort text av flera långa, förutsatt att de handlar om samma sak.
– Sedan är frågan vad som är en bra textsammanfattning, filosoferar Hercules. Vi testar på studenter och de har helt olika uppfattning om vad som är bra.
Mer än bara sökord
Textsammanfattning kan låta som ett sidospår, men det är en form av dataanalys som får allt större betydelse. Det mesta av informationen på webben är ju berättande text. Dagens sökteknik med enstaka sökord (som Google) är trubbig och borde kunna ersättas med automatiska sökmetoder som kan avgöra vad en text ”handlar om” och leverera en sammanfattning.
Det har också ekonomisk betydelse för utformningen av företagens webbsidor. Språkteknik kan göra webbsidorna mer lättillgängliga för användarna
Det har blivit en extra födkrok för Hercules Dalianis.
Företaget Euroling, som Hercules är vd i (”vi är ett kompisföretag, men någon måste vara vd”) använder språkteknik för att förbättra interna sökningar på webbplatser.
Programmet Siteseeker, utvecklat av Hercules och hans kompisar, hanterar sökrutan som de flesta större webbplatser har för interna sökningar.
Siteseeker indexerar texterna, genererar sammanfattningar och genomskådar användarfel som felstavningar. Det ska bli så enkelt som möjligt för besökaren att hitta.
Hercules var också verksam i företaget Euroseek, som skulle utveckla en europeisk sökmotor, men som ”knäcktes av riskkapital” – affärsplanerna utvecklades snabbare än tekniken.
Flera språk – en sökning
En företeelse som påminner om felstavningar är skillnaderna mellan svenska, danska och norska.
Språken är ju så lika att samma text på de tre språken blir nästan likadan – men bara nästan.
Det blev ett problem för Nordiska ministerrådet när de la ut alla sina dokument på webben. För i enlighet med rådets filosofi översätter man inte mellan svenska, danska och norska.
Texterna finns på ett av de tre språken samt på finska och isländska. Det gick alltså inte att göra sökningar i Nordiska rådets texter på ett skandinaviskt språk om man ville vara säker på att få träff. Om du anger ett svenskt sökord när dokumentet är skrivet på danska får du inte alltid träff.
Projekt Tvärsök
Lösningen blev projektet Tvärsök som utvecklar ett program som ”översätter” sökningar mellan svenska, danska och norska.
Nya projekt handlar om att hitta sammanhang och att klassificera innehållet i texter: att kategorisera texter (vad är det för slags text – skönlitteratur, reportage, reklam, teknisk information), att känna igen personnamn (Björn, inte björn) och företagsnamn (Ericsson är ett företag, inte en person) och, återigen, att sammanfatta texter. Vilket stöter på vissa upphovsrättsliga problem.
– Företaget puttrar på, säger Hercules, och det är bra att vi kan behålla en viss kompetens inom företaget.
– Det är svårare i forskningsvärlden. Det är brist på svenska studenter, men det finns gott om utländska studenter inom språkteknologi, inte minst indier och kineser. Problemet är att behålla dem.
– Det är så lite pengar som behövs för att behålla dem, men de bra studenterna sticker iväg.
Hercules Dalianis webbsida:
www.dsv.su.se/~hercules
Projektet Tvärsök:
http://www.dsv.su.se/~hercules/tvarsok.html
Programmet Siteseeker:
www.euroling.se/produkter/siteseeker