På skottdagen, den 29 februari, drabbades Microsofts molnplattform Azure av en stor driftstörning. Nu har företaget släppt mer detaljerade uppgifter om vad som gick fel. Dessutom erbjuder Microsoft en rabatt till de drabbade.

Enligt ett blogginlägg från Microsofts ansvarige för moln- och serveravdelningen, Bill Laing, var anledningen till driftstörningen en schemalagd certifikatgenerering. När Azure initierar en ny virtualiseringsmaskin utfärdas även ett certifikat som automatiskt sätts till att vara giltigt i ett år från genereringen. Anledningen till driftstörningen var att när nya certifikat genererades på skottdagen, som endast inträffar en gång vart fjärde år, gavs de en giltighetstid till den 29 februari 2013. Ett datum som aldrig kommer inträffa.

– Det handlar om interna certifikat som ska säkra att den interna kommunikationen är säker, säger Daniel Akenine, teknisk chef på Microsoft i Sverige.

På grund av det tolkade systemet certifikaten som ogiltiga, vilket inledde en kedjereaktion av omgenereringar som även de misslyckades. Efter att alla nya certifikatgeneringar misslyckats tolkade systemet det som att hårdvaran, som alla virtuella maskiner kör på, hade lagt av och en migrering till backupservrar inleddes.

Men även migreringen misslyckades av samma anledning. Till slut hade så många serverkluster dömts ut som odugliga av systemet att det inte längre gick att migrera vidare. På grund av felet var Microsoft tvungna att även stänga ner kundtjänstplattformen, vilket gjorde att kunder inte längre kunde lägga till nya applikationer eller utöka kapaciteten för nya applikationer. Bägge händelserna hade gjort problemen värre än vad de redan var, så Microsoft såg sig tvunget att stänga ner tjänsterna.

Fler problem uppstod när Microsoft försökte åtgärda problemen. I sju av Azureklustren skedde en uppgradering under tiden kraschen skedde. Man beslutade att rulla tillbaka till en version av de sju klustren innan kraschen, men med den nödvändiga patchen för att förhindra problemet. Det beslutet visade sig ge upphov till ännu fler problem. I bakåtrullningen tog man inte hänsyn till en nätverksplugin som ställer in nätverket hos de virtuella maskinerna. Det gjorde att de sju klustren helt enkelt inte kunde kopplas upp mot nätet och att kunder som använder dem drabbades.

Är inte det här ett bevis på att man inte kan lita på molnplattformar?

– Man har ju sett att flera molntjänster haft driftstörningar på senaste tiden vilket gjort att det börjar växa fram en kontinuitetsplanering och man börjar lära sig att man måste planera för när det går fel. Man kan inte förvänta sig 100 procent drift hela tiden, men jag tror ändå molnet är driftssäkrare än ett eget system, säger Daniel Akenine, teknikchef på Microsoft.

Vid tvåtiden på natten i USA hade till slut systemet återställts efter skottdagshaveriet. Som kompensation för drabbade kunder erbjuder nu Microsoft en rabatt på 33 procent för den tid då tjänsten låg nere. Inte alla drabbades av avbrottet och de som inte har drabbats får ingen sådan rabatt.

Fakta

1. Microsoft kommer börja testa för tidsinkompatibilitet i sina system.

2. Företaget kommer även se över hur systemet isolerar sig när det går fel för att förhindra att inte all hårdvara döms ut som felaktig i liknande situationer.

3. Microsoft kommer dessutom tillåta tysta nedgraderingar av kundtjänstsystemet så det inte måste stängas av helt i framtiden.