På Kungliga biblioteket pågår sedan flera år en digitalisering av det enorma materialet. Ett sisyfosarbete som ingen ser slutet på.

– Ja det är inte klart inom din eller min livstid, säger Love Börjeson, som är chef för KB-labb.

– Men när det gäller dagstidningar så har vi digitaliserat hela vägen från de första som gavs ut på 1600-talet och framåt.

KB-labb inrättades 2019 och permanentades förra året. Syftet med datalabbet är att skapa en nationell infrastruktur som gör det möjligt att bedriva storskalig kvantitativ forskning i nationalbibliotekets digitala samlingar.

Enormt inflöde

Det handlar om både det som sakta men säkert digitaliseras och allt det digitalt material som strömmar in och som handlar om tv, radio, webbpublikationer, dataspel och så vidare.

– Det är ett enormt inflöde som ligger på mellan 45–60 terabyte per månad.

Ett exempel på vad kvantitativ forskning i digitalt material kan handla om är ett stort pågående projekt kring välfärdsstatens framväxt där man bland annat tittar på de kulturella uttrycken i form av olika stämningar och känslor som framgår av litterära skildringar av av urbaniseringen av det svenska samhället.

– Det är den typ av frågeställningar som kan analyseras på speed med hjälp av våra språkmodeller och våra digitala samlingar, säger Love Börjeson.

Innan KB-labb kom på plats fanns inga dataset – datamängderna var inte samlade så att de gick att behandla tillsammans. Så det första som behövde göras var att omvandla samlingarna till forskningsbara dataset.

Skapade svensk modell

Alldeles innan labbet startade hade Google släppt sin modell för textanalys, Bert, som fanns i en kinesisk, en engelsk och en multilingua-version, där den sistnämnda innehöll svenska.

– De hade lagt in svenska wikipedia och den slog alla språkmodeller som fanns. Men vi tänkte att om vi skapar en svensk version så blir det ännu bättre så på ett halvår tränade vi på labbet, en och en halv person, en svensk Bert. Vi matade den med svenska dagstidningar och statliga utredningar.

Sedan dess har KB-labb hunnit ta fram fler språkmodeller men den svenska Bert-modellen står sig fortfarande bra även om den i dag är förbisprungen av större modeller.

– En konkurrensfördel för oss är också att vi har bra datset och att ingen i hela Sverige har mer beräkningskraft eftersom vi har tillgång till EU-kommissionens superdatorer Den vi använder ligger på 18 petaflops – 18 miljoner miljarder operationer per sekund, säger Love Börjeson.

Fritt tillgängliga

Men KB-labbs språkmodeller har fått en större betydelse för Sverige än bara att skapa möjligheter för kvantitativ forskning i de egna samlingarna. I och med att modellerna man tagit fram tillhandahålls gratis har de blivit en grund för att ta fram olika AI-verktyg både i offentlig och privat sektor.

– Ja, de har fått en lite oväntad användning utanför akademin. När vi släppte våra modeller fria att använda och tweaka som man vill så såg vi hur de laddades ner 1 500 gånger första veckan och tänkte att det peakade. Men det har bara ökat och nu är det uppe i 250 000 i månaden.

Totalt handlar det nu om över en miljon nedladdningar som är spridda över KB:s nästan 30 olika språkmodeller och över flera distributionskanaler, inte bara KB:s egna.

Och det här är inte något som Kungliga biblioteket är vant vid, konstaterar Love Börjeson.

Flyttat fokus

Förväntningarna har varit att öppna upp för akademin – kanske främst för humanistisk och samhällsvetenskaplig forskning även om inte det är uttalat, men också discipliner som medicin och datavetenskap så används modellerna inom högskolevärlden i dag mest av studenter inom teknik.

– Sedan vi släppte modellerna så märkte vi ganska snabbt att de fick ett liv i statsförvaltningen, vi fick snabbt de första samtalen från myndigheter. Vår främsta målgrupp är alltid akademin men flest användare har vi bland utvecklare i privat sektor – och de använder modellerna för att säga saker om andra data än våra här på KB, säger han.

– Det har flyttat fokus och är inte en kostym som KB är riktigt bekväm i ännu.

Stor potential

Trots det stora intresset har KB bara skrapat på ytan av potentialen ännu enligt en utvärdering som gjorts av analysföretaget Policy Impact som pekar på att tillämpningarna ännu inte skalats upp på bred front.

I rapporten skriver företaget att i ett realistiskt framtidsscenario där ”större statliga myndigheter med fler än 500 årsarbetskrafter – 46 stycken totalt – successivt låter sin kunskapsintensiva arbetskraft nyttja AI-baserade språkmodeller för textanalys och sökning beräknas detta kunna generera en sammantagen samhällsekonomisk nettomarginalnytta på närmare 4,2 miljarder kronor över en femårsperiod mätt i dagens penningvärde”.

Dessutom skulle det innebära en halvering av den tid som läggs på textsökning och analys, från 20 till 10 procent av arbetstiden enligt utvärderingen.

Blir lätt obalanserat

Men det gäller att hålla tungan rätt i mun när man använder sig av modellerna. Det handlar dels om att ha koll på GDPR så att man inte trampar snett men också om att sätta ihop data på ett sätt så att det inte blir obalanserat och fördomsfullt.

– Modellerna kan inget om världen – i textvärlden finns bara strukturer som modellen bygger på och sedan speglar den varje aspekt i de data man fyller den med – kön, åldrar, sociolekter, geografiska skillnader och så vidare.

När man ackumulerar data kommer det mycket gammalt skräp, förklarar han, och det innebär att det kan göra att resultatet blir rasistiskt, misogynt eller homofobiskt exempelvis.

– Där är det viktigt att balansera data för om men exempelvis överanvänder text från Flashback så blir resultatet att man får en Flashbackrobot i stället för ett representativt resultat.

Användarnas ansvar

När KB låter andra använda de modeller man tagit fram så hamnar det ansvaret på dem i stället.

– Precis som vi inte kan ansvara för hur våra böcker används så måste de äga sin egen användning. Men det är viktigt för oss att försöka medvetandegöra dem så att de förstår de här utmaningarna, säger Love Börjeson.

Närmast på agendan för KB-labb ligger att försöka skapa modeller även för ljud- och videoformat.

– Vi behöver få till en bättre ljudmodell. När det gäller video så finns detingen modell ännu men det kommer – och rätt snart det är vi övertygade om. Sedan ska de modellerna också göra ljud och video till text för det är så vi sparar och utbyter information, text har en särställning.

Vill förenkla

Dessutom vill man arbeta med att få fler forskare att använda sig av möjligheterna som man skapar genom att skapa bättre verktyg och gränssnitt.

– Det handlar om att höja funktionaliteten och att tillgängliggöra kraften för forskarna.

Samtidigt som språkmodellerna blivit en motor för AI-utveckling runtom i samhället så halkar just forskningen – den sektor som just KB betjänar – efter anser Love Börjeson-

– Privata företag sköter sig och de flesta myndigheter har fattat det. Men akademin ligger efter. Man förstår inte att kunskapsackumulering inom vetenskap sker på nya sätt utan håller fast vid sina traditionella metoder som peer review. Och det är ett bra sätt men i datavetenskap testar man i stället modellen och det är en annan form av peer review. Sådant måste man lära sig.

Läs också: AI tar klivet in på svenska domstolar – men inga robotdomare ännu