Generativ AI är en övergripande term för programstyrda processer som producerar, manipulerar eller syntetiserar data, ofta bilder eller text som människor kan läsa.

Det kallas för generativ för att artificiell intelligens framställer något som inte existerat tidigare. Detta till skillnad från särskiljande (discriminative) AI. Särskiljande AI försöker svara på frågor som ”föreställer denna bild en kanin eller ett lejon?”. Generativ AI lyder promptar som ”gör en teckning av ett lejon och en kanin som sitter bredvid varandra”.

I den här artikeln får du bekanta dig med generativ AI och hur det används i omtalade system som Chat GPT och Dall-E. Vi kommer också att gå in på teknikens begränsningar. Till exempel varför ”flerfingerfelet” har blivit något som ofta avslöjar artificiellt genererad konst.

Så har generativ AI vuxit fram

Generativ AI har funnits i decennier. Kanske ända sedan Eliza utvecklades på MIT 1966. Det var en dialogrobot (som det heter numera) som simulerade en samtalsterapeut. Sedan dess har utvecklingen av AI och maskininlärning blommat ut med flera nya generativa AI-system. Du har säkerligen hört talas om Chat GPT, en textbaserad chattrobot som framställer anmärkningsvärt mänsklig prosa. Dall-E och Stable Diffusion kan framställa tilltalande och realistiska bilder utifrån skriftliga promptar.

Dessa system och andra liknande kallas ofta för modeller. De representerar, eller försöker simulera eller modellera, aspekter av den yttre världen med användning av en delmängd – ibland en mycket stor delmängd – av information om den (vanligtvis från internet).

Alstren som dessa system framställer kan bli så kusligt bra att det har fått många människor att ställa filosofiska frågor om medvetandets natur – och att oroa sig för hur generativ AI kommer att påverka mänskliga jobb (skövling). Men även om dessa AI-skapelser förvisso är intressanta nyheter så kan man hävda att egentligen är det hela inte så märkvärdigt som det kan verka. Vi kommer till bilden i stort om en stund. Först ska vi ta en titt på det som händer under huven på modeller som Chat GPT och Dall-E.

Hur fungerar generativ AI?

Generativ AI använder maskininlärning för att behandla enorma mängder bilder eller text, till stor del hämtade från internet. Sedan fastställer det vilka saker som har högst sannolikhet för att hamna intill andra saker. En stor del av programmeringen av generativ AI går ut på att skapa algoritmer som kan urskilja de ”saker” som är av intresse för AI-systemets skapare. Alltså ord och meningar när det gäller chattrobotar som Chat GPT, visuella element för Dall-E. I grund och botten framställer generativ AI sina resultat – sina utdata – genom att utvärdera en enorm korpus av data som det har tränats på. Sedan svarar det på användarnas önskemål med något som faller inom sannolikhetens gränser inom ramen för detta korpus.

Textförslag (autocomplete), alltså när din telefon eller Gmail ger dig förslag om vad resten av ordet eller meningen som du skriver kan vara – kan ses som en primitiv form av generativ AI. Modeller som Chat GPT och Dall-E har tagit den idén oerhört mycket längre.

Träning av generativa AI-modeller

Processen när man utvecklar modeller som kan hantera de enorma datamängderna kallas för träning. Det finns flera tekniker som används för olika slags modeller. Chat GPT använder något som kallas för en transformer (det är T:et i GPT). En transformer härleder betydelser från långa textsekvenser. Den upptäcker hur olika ord och semantiska komponenter är relaterade till varandra. Sedan fastställer den hur sannolikt det är att de förekommer i närheten av varandra. Transformers körs sedan utan övervakning på en enorm korpus av text på naturligt språk. Det är en process som kallas för pretraining (det är P:et i GPT). Därefter fintrimmas processen av människor som interagerar med modellen.

En annan teknik som används för träning av modeller kallas för generative adversarial networks, förkortat GAN. (På svenska ibland: generativa kontradiktoriska nätverk.) I den tekniken har man två algoritmer som tävlar mot varandra. Den ena genererar text eller bilder baserat på sannolikheter beräknade från en stor datamängd. Det andra är särskiljande AI och har tränats av människor att avgöra ifall sådana resultat är äkta eller AI-genererade. Den generativa AI:n försöker överlista den särskiljande AI:n och anpassar sig successivt med ledning av lyckade resultat. När den generativa AI:n hela tiden lyckas vinna tar människor över och fintrimmar systemet, och sedan försöker man igen.

Här är det viktigt att komma ihåg att det visserligen förekommer mänskliga ingripanden i processen, men det mesta av inlärningen och anpassningen sker med automatik. Det krävs så många repetitioner för att komma dithän att modellerna framställer intressanta resultat att automatisering är en nödvändighet. Processen är mycket beräkningsintensiv.

Har generativ AI medvetande?

Matematiken och kodningen som behövs för att skapa och träna modeller för generativ AI är mycket invecklade, och kan inte beskrivas i denna artikel. Men om du skulle interagera med de modeller som dessa processer ger upphov till så kan det bli en rätt kuslig upplevelse. Du kan få Dall-E att producera bilder som verkar vara riktiga konstverk. Du kan samtala med Chat GPT och tycka att du pratar med en annan människa. Så har forskarna lyckas skapa en tänkande maskin?

Chris Phipps säger nej. Han var tidigare en av ledarna för IBMs satsning på behandling av naturligt språk och har jobbet med produkter baserade på Watson AI. Phipps beskriver Chat GPT som en ”mycket bra förutsägelsemaskin”.

Den är mycket bra på att förutsäga vad människor kommer att tycka hänger ihop och är rimligt. Men det är inte alltid så (men oftast), och det beror inte på att Chat GPT ”förstår”. Tvärtom. Människor som inhämtar resultatet av Chat GPT är nämligen mycket bra på att lägga till alla underförstådda antaganden som krävs för att resultaten ska verka vettiga.

Phipps, som också uppträder som komiker, jämför med en sällskapslek som kallas för Mind Meld.

Två personer tänker, var för sig, på varsitt ord. Sedan säger de orden samtidigt. Du kanske säger ”stövel”, jag säger kanske ”träd”. Vi har valt orden oberoende av varandra och de har inget med varandra att göra. Sedan tar två andra deltagare över. De tar de två orden och försöker, var för sig, att komma på något som de – stöveln och trädet – har gemensamt och säger de nya orden högt samtidigt. Detta fortsätter tills ett par deltagare säger samma ord.

Det kanske slutar med att två personer samtidigt säger ”skogshuggare”.

Det kan verka som trolleri. Men det är faktiskt så som vi använder våra mänskliga hjärnor för att resonera om indata (stövel och träd) och hitta ett samband. Det är vi som står för förståelsen, inte maskinen. Och Chat GPT och Dall-E handlar om sådant i mycket större utsträckning än vad folk vill inse. Chat GPT kan skriva en berättelse – men vi människor måste tänka till en hel del för att förstå den.

Att testa gränserna för datorintelligens

Det finns promptar som vi kan ge till AI-modellerna som tydligt belyser vad Phipps menar. Ta skolgårdsgåtan: ”Vilket väger mest, ett kilo bly eller ett kilo med fjädrar?”. Svaret är förstås att de väger lika mycket, ett kilo, även om vi kanske först vill svara att ett kilo bly väger mer (”Släpp det på tårna får du se.”).

Chat GPT ger rätt svar på gåtan. Du kanske tror att det beror på att Chat GPT är ett strikt logiskt datorprogram utan något ”sunt förnuft” som krånglar till det. Men det är inte det som händer under huven. Chat GPT resonerar sig nämligen inte fram till rätt svar med logik. Programmet genererar utdata genom att göra förutsägelser om vad som står om ett kilo fjädrar och ett kilo bly. Och eftersom träningsdatamängder troligen innehåller text som förklarar just den gåtan så sammanställer Chat GPT ett korrekt svar.

Men om du frågar Chat GPT ifall två kilo fjädrar väger mer än ett kilo bly så kommer det utan att sväva på målet att säga att de väger lika mycket. Det är nämligen det mest sannolika svaret på en fråga om fjädrar och bly, baserat på träningsdatamängden.

Man kan roa sig med att tala om för Chat GPT att det hade fel och se hur programmet trasslar in sig i ursäkter. Jag fick Chat GPT att be mig om ursäkt för felet och därefter påstå att två kilo med fjädrar väger fyra gånger så mycket som ett kilo bly.

Varför har AI-konst så många fingrar?

En märklig egenhet hos AI-konst är att den ofta ritar människor med mycket konstiga händer (se länk). Detta med konstiga händer har blivit ett välkänt tecken på att en bild har genererats artificiellt. Denna konstighet demonstrerar också hur generativ AI fungerar (och inte fungerar).

Börja med den korpus som Dall-E och andra bildgenererande AI-verktyg utgår från. Avbildningar av människor brukar visa ansiktet tydligt, men händerna är ofta helt eller delvis dolda eller visade i olika vinklar. Man ser inte alla fingrarna. Lägg till det att händer är komplexa saker. De är svåra för människor, även för utbildade konstnärer, att rita av. Och en sak som Dall-E inte gör är att sammanställa detaljerade 3d-modeller av händer, baserade på de olika 2d-avbildningarna i bildmängden. Så fungerar det inte. Dell-E vet kanske inte ens att det finns något som heter ”händer” som programmet måste jobba med. Allt programmet kan göra är att förutse, med utgångspunkt i de bilder det har tillgång till, hur en liknande bild skulle se ut. Och trots de väldiga mängderna med träningsdata så blir förutsägelserna ofta fel.

Phipps misstänker att en faktor är bristen på negativa indata.

Dall-E tränas främst på positiva exempel (så vitt jag vet). Det får inte se en bild på en hand med sju fingrar och instruktionen ”Nej! Dåligt exempel på en hand. Rita inte så!” Så programmet förutser vad som är möjligt – inte vad som är omöjligt. Ingen har lärt Chat GPT att det inte ska rita händer med sju fingrar.

Sedan har vi det att de här modellerna inte tänker på bilderna de framställer som helheter. I stället sammanför de ett antal komponenter som med hög sannolikhet är i närheten av varandra, så som det framgår av träningsdata. Dall-E vet kanske inte att en hand förväntas ha fem fingrar, men vad Dall-E vet är att fingrar brukar vara intill varandra. Så ibland lägger det helt enkelt till finger efter finger. (Samma sak kan hända med tänder.)

Kanske är även detta att tillskriva Dall-E mer mänskligt tänkande än det faktiskt har. Som Phipps säger: ”Jag tvivlar på att det ens förstår vad ett finger är. Mer sannolikt är att det förutsäger pixelfärg, och fingerfärgade pixlar tenderar att vara intill andra fingerfärgade pixlar.”

Tänkbara skadliga följder av generativ AI

Här är några exempel på generativ AI:s begränsningar. Det är vad som i branschen kallas för hallucinationer. Det är en kanske illa vald term för resultat som, enligt mänskliga bedömare, är falska eller felaktiga. Alla datorsystem producerar felaktiga resultat då och då, men felaktiga resultat av generativ AI är särskilt problematiska, eftersom det inte är lätt för mänskliga användare att upptäcka dem. Om du ställer en fråga till en chattrobot i aktiv drift så kan du troligen inte själv det rätta svaret. Det är också mer sannolikt att du godtar ett svar som levereras med det trovärdiga och idiomatiska språk som Chat GPT och andra modeller producerar – även om svaret är fel.
Även om generativ AI skulle kunna leverera resultat som är fria från ”hallucinationer” så finns det andra potentiellt skadliga effekter:

  • Billigt och enkelt att ta fram text och bild: Förhoppningsvis står det nu klart att Chat GPT och annan generativ AI inte är verkliga tänkare som kan skapa något kreativt eller få insikter. Men å andra sidan skrivs och ritas det mycket som inte är särskilt kreativt. Många uppsatser på gymnasiet eller i grundutbildningen på universitet är bara sammanställningar av allmänt tillgängliga data. Det gör det till ett perfekt mål för generativ AI. Och det faktum att konstgjord prosa, eller bilder, nu kan framställas automatiskt kan få märkliga och oförutsedda följder. Spammare använder till exempel redan Chat GPT för att skriva spammejl.
  • Immateriell egendom: Vem är ägare till AI-genererade bilder eller text? Om ett upphovsrättsligt skyddat verk ingår i träningsdatamängden för AI, har då AI-programmet plagierat verket när det framställer syntetiskt material – även om det inte kopierar ord för ord. Det här är kniviga frågor som hittills inte har prövats i domstol.
  • Vinkling: Materialet som produceras av generativ AI är helt avhängigt av den datamängd som det tränas på. Och eftersom den datamängden kommer från människor, med alla deras brister och fördomar, som kan resultatet också ha brister och vara fördomsfullt. Särskilt om AI-programmet rullar på utan mänsklig tillsyn. Open AI, företaget som skapade Chat GPT, la in spärrar i modellen innan den öppnades för allmänheten. Det skulle stoppa sådant som rasistiska förolämpningar. Men det finns de som anser att sådana säkerhetsåtgärder bara är en annan form av vinkling (se denna länk).
  • Energiförbrukning: Förutom knepiga filosofiska frågor finns det jordnära problem med generativ AI. En sådan är att generativ AI är enormt beräkningskrävande. Det kan medföra höga molntjänsträkningar för företag som vill satsa på generativ AI. Till sist är frågan om den höjda energiförbrukningen – och, i slutänden, växthusgaserna – är ett pris värt att betala. (Samma fråga aktualiseras av kryptovalutor och blockkedjor.)

Användningsfall för generativ AI

Trots de potentiella problemen är det svårt att bortse från möjligheterna med generativ AI. Chat GPT:s förmåga att vaska fram användbar information från enorma datamängder som svar på frågor ställda i naturligt språk får sökmotorjättarna att dregla. Både Microsoft och Google har lanserat egna varianter. De är fortfarande på betastadiet och resultaten är ännu minst sagt blandade.

Men Phipps tror att mer specialiserade slag av sökningar kan passa perfekt för denna teknik:

– En av mina sista kunder på IBM var ett stort internationellt transportföretag som också hade en konsultfirma inom leveranskedjor som omsatte miljarder, berättar han.

– Den firmans problem var att den inte klarade att anställa och lära upp nyanställda konsulter inom leveranskedjan så snabbt som de behövde. Firman gick miste om affärer eftersom den inte kunde besvara kundernas frågor tillräckligt snabbt. Så vi byggde en chattrobot som hjälpte nyanställda konsulter att rådfråga företagets stora bibliotek av handböcker och bildspel så att de kunde hjälpa kunderna.

– Om jag skulle bygga en lösning i dag för samma kund, bara ett år efter att jag byggde den första, skulle jag använda Chat GPT till hundra procent. Och den skulle troligen var helt överlägsen den jag byggde i fjol. Det som är tilltalande med det användningsfallet är att det fortfarande finns en mänsklig expert i loopen som dubbelkollar svaren. Det tar hand om en hel del av de etiska frågorna. Det finns en enorm marknad för sådana intelligenta sökverktyg för experter.

Andra potentiella användningsfall kan vara:

  • Kodgenerering: Tanken att generativ AI skulle kunna skriva programkod åt oss har diskuterats i många år. Det har visat sig att stora språkmodeller som Chat GPT kan lära sig förstå programspråk lika väl som naturliga språk. Även om AI inte lär ersätta mänskliga programmerare de närmaste åren så kan det säkert bidra till att öka deras produktivitet.
  • Billig och enkel framställning av material: Detta är ett orosmoment (se ovan), men det är också en möjlighet. Samma AI som skriver spammejl kan också skriva legitima säljbrev, och det har redan vuxit upp tusentals AI-baserade copywritingbyråer. Generativ AI trivs bäst när det gäller strukturerad prosa som inte kräver mycket kreativitet, sådant som meritförteckningar och följebrev.
  • Teknisk formgivning: Bildkonst och naturligt språk har fått mycket uppmärksamhet när det gäller generativ AI, eftersom det är saker som folk i allmänhet begriper sig på. Men liknande tekniker används redan för att konstruera allt från mikrochipp till nya läkemedel. Och det kommer säkert att få användning inom it-arkitektur inom kort.

Sammanfattning

Generativ AI kommer säkert att bli en revolution i många branscher, och det kommer att förändra – eller eliminera – många jobb. Artiklar som denna kommer att skrivas av människor – åtminstone ett tag framöver. Amerikanska Cnet försökte nyligen att låta generativ AI skriva artiklar, men satsningen stupade på en våg av hallucinationer. Så om du oroar dig för framtiden bör du kanske satsa på morgondagens hetaste nya jobb: AI-prompt-konstruktör.