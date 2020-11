37 procent av alla it-ledare uppger i IDG:s stora globala cio-undersökning 2020 att dataanalys är det som driver it-investeringarna i år. De insikter och kunskaper som det ger kan användas för att få konkurrensfördelar. Men när det misslyckas kan det i gengäld kosta – både i intäkter, rykten och rentav liv.

Att förstå sina data och vad de faktiskt berättar är viktigt – men det är också viktig att förstå sina verktyg, känna sina data och att se till att inte glömma sin organisations värderingar.

Här är en handfull uppmärksammade missar inom AI och dataanalys från det senaste decenniet för att illustrera vad som kan gå fel.

Storbritanniens missade covid-fall

I oktober i år meddelade den brittiska folkhälsomyndigheten Public Health England, PHE, som ansvarar för att hålla koll på antalet konstaterade fall av covid-19 att nästan 16 000 inte rapporterats som de skulle mellan den 25 september och den 2 oktober.

Problemet var de begränsningar för data som finns i Microsoft Excel. Myndigheten använde sig av en automatiserad process för att överföra positiva testresultat från labben i textfilsformatet CSV till Excelmallar som sedan användes för rapportering och kontaktspårning.

Dessvärre kan Excels kalkylark maximalt ha 1 048 576 rader och 16 384 kolumner per ark. Dessutom listade PHE fall i kolumner snarare än i rader. När fallen översteg gränsen på 16 384 kolumner, klippte Excel av 15 841 poster som låg längst ner.

”Buggen” hindrade inte individerna som testats från att få sina resultat, men det gjorde det svårare att spåra kontakter, vilket i sin tur gjorde det svårare för den brittiska statliga sjukvården, NHS, att identifiera och informera personer som var i nära kontakt med smittade patienter. .

I ett uttalande den 4 oktober sa Michael Brodie, tillförordnad chef för PHE att frågan snabbt löstes tillsammans med och att alla utestående ärenden omedelbart överfördes till NHS kontaktspårningssystem.

PHE började dela upp stora filer och har genomfört en granskning av alla system för att förhindra liknande incidenter i framtide

Algoritm missade svarta patienter

2019 visade en studie som publicerades i tidskriften Science att en algoritm som används på sjukhus och av försäkringsbolag i USA för att identifiera patienter som har behov av ”högriskvårdsprogram” inte valde ut svarta patienter lika ofta som vita.

Program för att hantera högriskvård ger kroniskt sjuka patienter tillgång till utbildad vårdpersonal och primärvårdsövervakning för att försöka förhindra allvarliga komplikationer. Men algoritmen var mycket mer benägen att rekommendera vita patienter till de programmen än svarta patienter.

Studien visade att algoritmen använde sjukvårdsutgifter som ett sätt att bestämma en individs vårdbehov. Men enligt Scientific American var sjukvårdskostnaderna för sjukare svarta patienter i nivå med kostnaderna för friskare vita människor, vilket innebar att de fick lägre riskpoäng även när deras behov var större.

Studiens forskare föreslog att några faktorer kan ha bidragit. För det första ha svarta ofta lägre inkomster, vilket, även om de är försäkrade, kan göra att de inte får tillgång till medicinsk vård. Inbyggda fördomar kan också göra att de får vård av lägre kvalitet.

Även om studien inte nämnde algoritmen eller utvecklaren sa forskarna till Scientific American att de arbetade tillsammans med utvecklaren för att ta itu med situationen.

Microsofts chattbott blev rasist

I mars 2016 fick Microsoft erfara att resultatet av att använda interaktioner på Twitter för att träna en maskininlärningsalgoritm kan bli förskräckande.

Då släppte företaget nämligen AI-chattbotten Tay på Twitter som ett experiment för att förstå konversation. Tanken var att chattbotten skulle anta personan av en tonårsflicka och interagera med andra på Twitter genom en kombination av maskininlärning och språkteknologi.

Till det lade Microsoft också anonymiserade offentliga data och material som en komiker skrivit på förhand innan Tay klev in för att lära sig och utvecklas genom interaktionerna.

Inom 16 timmar publicerade chattbotten mer än 95 000 tweets, och dessa tweets blev snabbt öppet rasistiska, kvinnohatande och antisemitiska. Microsoft avbröt snabbt tjänsten för justeringar men det slutade med att man drog ut kontakten.

”Vi är djupt ledsna för de oavsiktligt stötande och skadliga tweeten från Tay, som inte representerar oss eller vad vi står för, och inte heller hur vi utformade Tay”, skrev Peter Lee, som då ansvarade för vårdområdet inom Microsoft och som idag leder forskningsavdelningen, i ett inlägg på Microsofts officiella blogg efter händelsen.

Han konstaterade att Tays föregångare, Xiaoice, som släpptes av Microsoft i Kina 2014, framgångsrikt hade haft samtal med mer än 40 miljoner människor under två år innan Tay släpptes. Vad Microsoft inte tog hänsyn till var att en grupp Twitter-användare omedelbart skulle börja tweeta rasistiska och kvinnohatande kommentarer till Tay. Botten lärde sig snabbt av det materialet och införlivade det i sina egna tweets.

”Även om vi hade förberett oss för många typer av missbruk av systemet, hade vi missat att förutse denna specifika attack. Som ett resultat twittrade Tay olämpliga och förkastliga ord och bilder”, skrev Peter Lee.

Amazons rekryteringsverktyg valde bara män

Precis som många andra stora företag är Amazon intresserat av ett verktyg som kan hjälpa HR-funktionem att välja ut ansökningarna från de bästa kandidaterna. 2014 började Amazon arbeta med ett AI-drivet rekryteringsprogram för att göra just det. Det fanns bara ett problem: systemet föredrog i hög grad manliga kandidater. 2018 avslöjade Reuters att Amazon hade skrotat projektet.

Amazons system klassificerade kandidater från 1 till 5. Men maskininlärningsmodellerna i systemet tränades på 10 års meritförteckningar som skickades till Amazon – de flesta från män. Som ett resultat av dessa träningsdata började systemet straffa fraser i de cv:n som innehöll ordet "”kvinnors” och graderade ner kandidater från högskolor för kvinnor.

Amazon sa att verktyget aldrig användes av Amazon-rekryterare för att utvärdera kandidater. Företaget försökte redigera verktyget för att göra det neutralt, men bestämde sig i slutänden för att det inte kunde garantera att det inte skulle lära sig något annat diskriminerande sätt att sortera kandidater och avslutade projektet.

Varuhuskedja kröp för nära

2012 visade ett analysprojekt som den amerikanska lågprisvaruhuskedjan Target hur mycket företag kan lära sig om kunder från deras data. Enligt New York Times började Targets marknadsavdelning 2002 undra hur de kunde avgöra om kunderna är gravida.

Denna undersökning ledde till ett analysprojekt som i ett uppmärksammat fall ledde företaget att oavsiktligt avslöja för en tonårsflickas familj att hon var gravid. I sin tur ledde detta till att händelsen togs upp i olika artiklar och marknadsföringsbloggar som använder exemplet för att ge råd om att undvika att bli obehaglig – ”the creepy factor”.

Orsaken till att Targets marknadsavdelning ville identifiera gravida är att det finns vissa perioder i livet – bland dem graviditet – när människor mest sannolikt kommer att radikalt ändra sina köpvanor. Om Target lyckades nå ut till kunder under den perioden skulle det kunna skapa ett nytt beteende hos dessa kunder och få dem att handla mer just av dem.

Och precis som alla andra stora detaljhandlare hade Target samlat in data om sina kunder via kreditkort, undersökningar och annat. De blandade upp den informationen med demografisk data och tredjepartsdata som köptes in.

Genom att analysera all den informationen kunde Targets analysteam avgöra att det fanns runt 25 produkter som såldes av dem och som tillsammans skapade en "graviditetsförutsägelse" -poäng. Marknadsavdelningen kunde då rikta sig dit med erbjudanden och annan marknadsföring.

Men att studera kunders reproduktiva status kan kännas obehagligt för en del visade det sig. Enligt Times backade företaget inte från sin riktade marknadsföring utan började blanda in annonser för saker de visste att gravida kvinnor inte skulle köpa – som annonser för gräsklippare bredvid annonser för blöjor – för att få annonsmixen att framstå som slumpmässig för kunden.

