Buzzet kring Chat GPT som visat hur stora språkmodeller kan följa instruktioner har fått mycket uppmärksamhet. Genom att människor kan testa själva konkretiseras vad de komplexa AI-modellerna faktiskt kan göra.
Och Sverige har sin egen variant av språkmodell GPT-SW3 som forskare på AI Sweden ägnat år åt att ta fram och i höstas släpptes en release. Modellen är baserad på samma tekniska principer som GPT men är inte kopplad till Open AI:s omtalade modell i övrigt.
Intresset för modellen har varit stort enligt forskningschefen Magnus Sahlgren – särskilt efter lanseringen av Chat GPT.
– Ja intresset för att testa modellen har varit väldigt stort. Men det är viktigt att poängtera att det här är ett forskningsprojekt och att syftet är att andra forskare ska kunna forska på det vi tar fram. Och vi har heller inte gjort någon instruktionsmodellering – som Chat GPT – utan det är just en språkmodell.
Han beskriver utvecklingen från att Google kom med sin Transformermodell 2017 som andra sedan började bygga nya språkmodeller från – en av de första var GPT som kom 2018.
– Då insåg vi att det skulle förändra språktekniken för alltid och att vi behövde få ut tillämpningar så vi påbörjade ett projekt för att träna upp en språkmodell på forskningsinstitutet Rise.
Såg ut som magi
När sedan GPT3 kom 2020 och var så otroligt mycket större än de tidigare modellerna så flyttades forskningsprojektet från Rise till AI Sweden för att de svenska forskarna skulle vara med på banan. Och Rise deltar fortsatt i projektet.
– GPT3 visade vad som kan hända när modellerna får en mer generell förmåga och klarar en massa olika uppgifter. Det var så disruptivt – det såg ut som magi. Så vi tänkte att vi måste se vad som händer om man skalar upp modellen. Så vi har fokuserat på att bygga stora modeller för Sverige och Norden, nordgermanska språk, för att försöka nå generell kapacitet.
Utvecklingen just nu är helt revolutionerande när det gäller hur modellerna fintränas för att följa instruktioner – som Chat GPT. Att det skulle bli så bra var inget han väntade sig.
– Och att i nästa steg kombinera sök med GPT4 som man gör i nya Bing är superspännande, jag är väldigt taggad i var det kommer att landa.
Krävs investeringar
I dag är GPT-SW3 den största språkmodellen i Europa men vad som händer framåt är mer oklart. För det krävs rejäla resurser för att ta rygg på techjättarna. Men ännu ser Magnus Sahlgren ingen tydlig intention vare sig i Sverige eller EU.
– Visst märks det av ett ökat intresse men utan storsatsningar tar det stopp. Vi kommer helt enkelt inte ikapp techjättarna utan signifikanta investeringar
Pratar vi miljardsatsningar här?
– I bästa fall hundratals miljoner i alla fall. Där tio forskare ligger bakom GPT-SW3 så är listan med personer som arbetat med GPT4 tre A4-sidor lång. Vi har kokat soppa på en spik för att vi brinner för det här.
Ser Cern som förebild
Magnus Sahlgren lyfter fram partikelfysiklaboratoriet Cern som förebild – en gemensam satsning där man samlar forskare på en plats.
– Om det gick att få en sådan satsning i EU vore det bra men annars tycker jag Norden är en bra början. Här kan vi samla den nordgermanska språkfamiljen, det tycker jag vi kunde försöka med.
Men även om det finns en medvetenhet om vikten av att satsa på AI i EU och pengar delas ut via forskningsinitiativet Horizon så får det inte samma effekt när det pytsas det ut över många mindre projekt anser han.
– Det saknas medvetenhet om hur stora de här utvecklingsprojekten är. Samtidigt har Storbritannien just meddelat att de ska bygga en egen stor modell så där verkar man förstå att det här kräver stora investeringar.
Väntan på lag
En annan osäkerhetsfaktor framåt är den AI-lagstiftning som är på gång i EU och vad den resulterar i – det finns en oro att den kan komma att bromsa utvecklingen.
– Väntan på AI act ligger som en blöt filt över hela utvecklingen. Men samtidigt har EU också initiativet Language data space där man ju verkligen ser behovet av att kunna träna på europeiska data.
Just att använda egna data och det egna språket, som GPT-SW3 gör‚ är viktigt för att verkligen se till att den egna befolkningen är representerad i det som kommer ut ur modellen. Använder man bara sådant som byggts av data som amerikanska aktörer har tillgång till – och som heller inte öppet redovisas i GPT4 – så är det svårt att veta vilka grupper som är representerade.
– Det finns också en suveränitetsaspekt att ha tillgång till det här i sitt eget land.
En annan aspekt av att techjättarna blir allt mer hemliga kring sina språkmodeller är att det är svårt att veta hur mycket energi de drar eftersom de inte längre berättar hur stora modellerna är eller vilken arkitektur som används.
Just det skulle kunna ge Sverige en fördel som ett nav för att härbägera stora språkmodeller tycker Magnus Sahlgren.
– Det är ju spännande eftersom vi har grönare el än många andra länder i EU.
Lösa samhällsproblem
Medan de språkmodeller och tillämpningar som kommer i en strid ström från de stora techföretagen är kommersiella produkter för en marknad så arbetar forskarna på AI Sweden med att hitta sätt där deras språkmodell kan användas för att lösa faktiska samhällsproblem.
Just nu pågår försök där man testar hur den kan appliceras ute i verkligheten och där man bland annat samarbetar med Västra Götalandsregionen och Sahlgrenska sjukhuset för att kunna få fram fallskador på sjukhus genom att söka i journaltexter.
– Det är tydligt att de här modellerna är väldigt attraktiva att leka med för startups och så men vi tror ju att de också kan skapa samhällseffekter och tror vi har fog för att tro det.
Otydligt framåt
I augusti 2024 avslutas valideringsprojektet för GPT-SW3 – så vad är på gång framåt? Ja det är lite otydligt.
Men i närtid hoppas Magnus Sahlgren att modellen ska släppas i sin helhet så att fler kan testa den. Det har funnits en viss försiktighet eftersom man inte vill riskera att den missbrukas men nu bedömer han att det snart ska vara på gång.
Han säger också att forskningsteamet är sugna på att testa instruktionsträning och se om de kan få samma typ av effekt som Chat GPT. Beroende på möjligheter till finansiering så vill de gärna bygga mutlimodala modeller också – där även bild och ljud ingår.
– Det måste gå att göra i en större skala för att det ska få effekt så vi får se om det finns möjlighet till det. Som det är nu är det viktigt att kommunicera att vi måste ha en rimlig förväntansbild på GPT-SW3. Det är en stor språkmodell men med mycket begränsade resurser, säger han.
Läs också: GPT-4 kommer till jobbet – här är Microsoft 365 Copilot
Cyberexperterna: Här är de största riskerna med ChatGPT