Vilken är den första frågan man bör ställa sig när man inleder en AI-satsning? Här är ett förslag: Vad är det man vill förutspå eller upptäcka? Det är bara en av många frågor som måste besvaras för att lyckas med AI.

Här presenterar Computer Swedens systersajt CIO fem ytterligare krav för att lyckas med olika varianter av AI, som maskininlärning och djupinlärning (deep learning).

Krav 1. Mycket data
En tillräcklig mängd av relevanta data är ett krav för att lyckas med förutsägelser. Du kanske lyckas om du har det, du lyckas inte om du inte har det.

Hur mycket data krävs? En sak är klar, ju fler faktorer du försöker bedöma, desto mer data behöver du. Det gäller för så väl traditionella statistiska prognoser, som för maskininlärning och djupinlärning.

Läs också: Elon Musk och Mark Zuckerberg i luven på varandra om AI

Ta den välkända utmaningen med att förutsäga försäljning. Hur många marinblå skjortor kommer man att sälja i Göteborg nästa månad? Hur många skjortor behövs det i affären i Göteborg och hur många i lagret i Kungsbacka, för att undvika restorder och att binda för mycket pengar i lagerhållning?

Det behövs en statistiskt signifikant mängd av månatliga data för flera år för att lyckas med sådan grundläggande trendanalys. För maskininlärning krävs det ännu mer data och för modeller för djupinlärning krävs det ytterligare mycket mer data.

Det kan till exempel handla om väderdata och data om modetrender. Säljer man till exempel fler kortärmade tröjor när det är varmt och soligt? I stället för att bygga traditionella statiska modeller för att besvara sådana frågor kan man prova med ett otal olika modeller för maskininlärning. Eller med ett omfattande neuralt nätverk. För att få tillgång till så många analysalternativ som möjligt krävs det mycket data.

Krav 2. Många analytiker
Du har säkert förstått att någon måste bygga alla de olika modeller som nämns i krav 1. Det är inte bara att hälla i data i ett program och klicka på en knapp. Det behövs erfarenhet, intuition, programmeringskunskaper och en solid bakgrund inom statistik för att lyckas med till exempel maskininlärning.

Tro inte på vissa leverantörers påståenden om att ”vem som helst” kan använda deras färdiga modeller för maskininlärning. Det kanske kan stämma om det är en modell för exakt det problem som du vill lösa, till exempel att översätta skriven formell norska till svenska. Men vanligtvis behöver man träna modellen och då behövs olika typer av dataanalytiker (kallas ibland ”data scientists”).

Och sådana kan vara svåra att hitta. Lustigt nog ser man ibland annonser med krav om lång erfarenhet, trots att det i realiteten ofta är nyutexaminerade 25-åringar som finns tillgängliga.

Krav 3. Samla in rätt data
Om man har en massa data och gott om dataanalytiker så kanske det ändå saknas relevanta data. Det kan till exempel ge svårförklarliga variationer i analysresultaten. I vissa fall är det lätt att fylla på med relevanta data, i andra fall är det knepigt, även om man har klart för sig vilka data som behövs.

Läs också: Så förändras jobbet för dataanalytiker när maskinerna styr

Krav 4. Tvätta och transformera data
Man behöver nästan alltid städa i datamängder. Det kan fattas en del värden, värden kan vara utanför rimliga intervall eller inte stämma överens med andra värden, folk kan missförstå frågor som ska besvaras, etcetera. Och man måste ofta transformera data mellan olika format.

Det är inte ovanligt att processen med att städa i och transformera data tar mellan 80 och 90 procent av tiden i ett analysprojekt. Ibland görs jobbet med datalagerverktyg för ETL (extrahera, transformera och ladda), ibland får dataanalytikerna sköta det. I det senare fallet lagras data som inte är redo att analyseras. Och ibland måste man filtrera redan filtrerade data ytterligare, för att statistiska metoder och modeller för maskinlärning ska fungera optimalt.

Här finns en intressant beskrivning av hur data om bidrag till Trumps och Clintons presidentkampanjer hanterades för analys med Microsofts Cortana ML. Det krävdes flera transformationer som gjordes med språken Sql och R.

Krav 5. Du bör redan ha gjort statistiska analyser
Ett vanligt misstag när man jobbar med dataanalys är att sätta i gång med avancerade analyser för snabbt. Det är klokt att ta ett stag tillbaka och undersöka alla variabler och hur de påverkar varandra.

Det kan gå snabbt att undersöka data och se om olika par av variabler är beroende av varandra eller inte. Om så är fallet kan det vara klokt att ta bort någon av dem från en analys. Med metoder för linjär regression kan man undersöka vilka variabler som ger bäst analysresultat. På så vis undviker man problem som kommer sig av många variabler i en datamängd.

Läs vidare här för ytterligare tips om krav för att lyckas med AI.