Översättning direkt i örat är målet för ett utvecklingsprojekt på Google. Ett telefonsamtal ska simultantolkas medan det pågår, men inte av en mänsklig tolk, utan av ett datorprogram. Tolkningen ska ske ”nästan i realtid”.

Google är inte ensamt. IBM har låtit amerikanska trupper i Irak pröva maskintolkning i fyra år. Microsoft har släppt en demo av ett system som har en bit kvar.

Maskintolkning ställer nya krav på översättningstekniken jämfört med översättning av text.

Även det sista ledet i kedjan, syntetiskt tal, är en utmaning, trots att teknik för syntetiskt tal har funnits länge, berättar Rolf Carlson på KTH.

– Det syntetiska talet måste ha rätt betoningar för att bli förståeligt. Vad som är rätt betoningar beror på sammanhanget, säger han.

Maskintolkning är en process i tre steg.

Första steget är taligenkänning. Talat språk ska återges som ord, och orden ska sitta ihop i begripliga meningar.

Nästa steg är maskinöversättning. Det översatta talet ska översättas till ord och meningar på målspråket.

Sista steget är talsyntes. En konstgjord röst ska läsa upp texten. Det behöver inte låta naturligt, men det måste vara begripligt.

Det finns teknik för alla tre stegen. Frågan är hur bra resultatet blir om man kombinerar dem.

– Tiden är mogen för ett experiment, säger Rolf Carlson, men man ska inte förvänta sig perfekt resultat.

Program för taligenkänning, alltså för översättning av talat språk till skriven text, har funnits sedan 1990-talet.

Maskinöversättning finns, i mer eller mindre framgångsrika varianter, och Google har kommit långt på det området.

Talsyntes används sedan länge av synskadade som ett alternativ till blindskrift.

Det skämtas mycket om maskinöversättning. Exempel på misslyckade maskinöversättningar florerar på internet, som när Oracle bjöd in svenska journalister med anledning av att Oracle köpt företaget Sun. Det blev ”insamlingen av solen på plats” på svenska – översättningsmaskinen hade inte förstått att Sun var ett företagsnamn, och ”insamlingen” var inte rätt ord heller.

Sådana problem blir givetvis svårare att lösa när talat språk ska analyseras. I synnerhet när det gäller spontant talat språk som i ett telefonsamtal, inte som när man dikterar.


Hotat jobb? Europaparlamentets simultantolkar kan snart tvingas se sig om efter ett annat jobb. Översättning av tal till tal kan snart göras av datorer.

I talat språk måste datorn förstå slarvigt uttal, dialekter och sammandragningar av ord och uttryck. Datorn får ingen hjälp av skrivna ordmellanrum, skiljetecken och stora bokstäver. Hjul och jul låter likadant.

Sedan ett par decennier är statistik det vanliga sättet att analysera språk med datorprogram.

Man kan tycka att språklig analys skulle lösa uppgiften. Alltså att man skriver program som utgår från ordlistor och regler för böjning och ordföljd. Ett sådant program skulle kunna skilja mellan ”banan” (frukten) och ”banan” (en bana) genom att undersöka resten av meningen.

”Banan” kan ju antingen vara frukten i obestämd form (en banan) eller en bana i bestämd form (den banan). Så, resonerar grammatikern, om det står ”jag vill ha en banan” så måste det handla om frukten, för om det handlade om en bana skulle grammatiken kräva ”jag vill ha en bana”.

Omvänt måste ”jag vill åka på den banan” handla om en bana, för om det handlade om en banan skulle det bli ”jag vill åka på den bananen” (vad som nu menas med det).

Det låter logiskt och rimligt, men det fungerar dåligt i praktiken.

Och det är knappast så vi resonerar när vi läser eller lyssnar på språk. Möjligtvis gör vi sådana analyser när vi studerar språk i skolan, men inte när vi verkligen kan dem.

– Varje gång som jag sparkar en språkvetare fungerar systemet bättre, lär Fred Jelinek, språkvetare på IBM ha sagt 1988.

Fred Jelinek gjorde mycket av det grundläggande utvecklingsarbetet för IBMs tekniker för taligenkänning, och hans teknik bygger på statistisk analys.

I stället för att använda grammatiska regler för att analysera tvetydiga ord som ”banan” lät han programmet göra en statistisk bedömning. Om någon säger ”jag vill ha en...”, hur sannolikt är det då att nästa ord blir ”banan” (frukten)? Och hur sannolikt är det att nästa ord blir ”bana”?

Så här fungerar nästan all praktiskt användbar språkteknik i dag.

Google har, med sina enorma databaser med texter på all världens språk, kunnat bygga sina statistiska bedömningar på ett underlag som Fred Jelinek bara kunde drömma om 1988.

Google har också utnyttjat den märklige filosofen Ludwig Wittgensteins språkfilosofi, som ibland har drag av snusförnuft. Ett Wittgensteininspirerat knep är att undersöka vilka andra ord som finns i närheten av ett tvetydigt ord. Ta ordet band. Om det står i en text där man också ser namn som ”Beatles” och ”Sahara Hotnights” kan man gissa att ”band” betyder musikgrupp. Men om texten innehåller ord som ”tråd” och ”sy” är det mer sannolikt att bandet är av tyg.

Det låter enklare än det är.

Slutligen är frågan vilken nytta vi har av maskinbaserad tolkning. Hur ofta ringer vi till någon som inte förstår vad vi säger? Säkert är att när tekniken är på plats så kommer någon att använda den. När din telefon ringer om några år får du kanske höra en burkig röst som berättar om pengar som är låsta på ett bankkonto i ett västafrikanskt land.

 
Detta är en artikel från Computer Sweden, Sveriges största nyhetstidning inom it - där teknik möter affärer.

computersweden.se Twitter Facebook Nyhetsbrev

Fakta

Google är långt ifrån först med direktöversättning av tal. Ett antal företag och forskningsinstitut har utvecklat program för datoriserad tolkning.

IBMs program Mastor (Multilingual automatic speech-to-speech translator) togs i bruk av amerikanska armén i Irak 2006. Det översätter inte i realtid, utan tar ett yttrande i taget. Fick bra betyg i amerikanska försvarets forskningsinstitut Darpas utvärdering 2008.

Microsoft visade i februari 2010 upp en prototyp till en datoriserad tolk.

Toshiba arbetar på röst-till-röst-översättning för mobiltelefoner.