Under natten till torsdagen förra veckan var det svårt att komma åt mängder av sajter och tjänster, däribland 1Password, Coinbase, Flickr, Pocket, The Washington Post och, typisk nog, Downdetector.com.

Det tog även ovanligt lång tid innan AWS kunde återhämta sig från driftstörningen. Haveriet orsakades av en utökning av hårdvaran till tjänsten Kinesis. Denna tjänst används dels av AWS kunder, men den utgör även grund för andra tjänster inom AWS-portföljen,skriver The Register.

Skulle utöka kapaciteten

Tanken var att AWS skulle lägga till mer kapacitet, fler servrar, men alla servrar inom Kinesis-systemet måste kommunicera med varandra, och varje sådan kommunikationsprocess startar en exekveringstråd i processorn. Enligt AWS finns det ”många tusen” sådana servrar, och när de lägger till nya servrar kan informationen om de nya maskinerna ta uppåt en timme att propagera i nätverket.

Det som hände denna gång var att utökningen av kapaciteten med nya servrar fick antalet trådar att överstiga gränsen för vad som är tillåtet av operativsystemets konfiguration. Det fick AWS tekniker snabbt kontroll på, men det visade sig också att det kräver en omstart av hela systemet.

Tog flera timmar att starta om

Denna omstart kunde bara ske med några hundra servrar i taget, och med många tusen i hela systemet tog detta flera timmar. Allt detta förklaras i detalj i en bloggpost från AWS, men på kort sikt stavas lösningen att skaffa servrar med större processorer och mer minne, så at det inte behövs lika många servrar och därmed trådar i varje processor.

Läs också:
Driftstörning hos AWS slog ut stora delar av internet
Efterlängtat besked: då öppnar Microsoft sina svenska datacenter