Omkring 7 000 språk talas i världen. Av dem är tio riktigt stora och talas av flera hundra miljoner människor. Men det finns också en tredjedel som talas av färre än tusen personer.
Resten av språken befinner sig däremellan – men det är väldigt olika hur bra stöd de har online, skriver lingvisten Gretchen McCullough på Wired.
Som exempel lyfter man fram svenska som talas av uppåt tio miljoner människor men samtidigt har stöd i sådant som Google Translate, Bing Translate, Facebook, Siri och Youtube.
Det stödet har däremot inte de som talar oriya i den indiska delstaten Odisha – fast de är 38 miljoner.
Ett skäl till det är EU. I och med att svenska är ett officiellt EU-språk översätts många officiella dokument. Det gör att det skapas parallella korpusar, som lingvister skulle kalla det. Alltså en bas där en mängd likadana texter finns på olika språk – mening för mening. Det gör maskinöversättning betydligt enklare i och med att det går att identifiera ord – som när regering förekommer parallellt med det engelska government.
På samma sätt gynnas också andra EU-språk som grekiska, tjeckiska och ungerska som talas av mellan åtta och 13 miljoner jämfört med språk som bhojpuri som talas av 51 miljoner indier eller fula som talas av 24 miljoner i Afrika.
Men det handlar inte bara om EU-dokumenten. Sverige har också nytta av att vi är så pass välbärgade att det lönar sig att översätta romaner, filmer och tv-serier vilket ger ytterligare översättningsunderlag, enligt Gretchen McCullough.
Läs också:
Microsofts AI fixar kinesiska lika bra som människor
Nu blir Google Translate bättre på svenska – kopplar på neuralt nätverk