IBM arbetar just nu med en patch som ska ta bort felet i switcharna. Det är oklart hur många andra datacenter som kör samma hårdvarusetup som Försäkringskassan.

– Använder man samma konfiguration som vi skulle jag definitivt kolla upp riskbilden med leverantören, säger Mikael Norberg, datacenterarkitekt på Försäkringskassans datacenter i Sundsvall.

Det var under morgontimmarna måndagen den 22 september som Försäkringskassans datacenter i Sundsvall plötsligt klappade ihop. Inom loppet av några få minuter stannade myndighetens samtligasystem och allt arbete lamslogs under 18 timmar.

Datacentrets felsökningsteam kunde relativt snabbt ringa in problemområdet – kommunikationsswitchar som finns inbyggda i bladserverchassin från IBM. Totalt har datacentret 30–40 sådana IBM-serverchassin med 14 bladservrar i varje. I varje chassi finns två switchar.

Haveriet inträffade när alla dessa switchar i princip samtidigt började överflöda hela systemet med anrop. Problemet liknade en ddos-attack, fast här kom den förlamande mängden av anrop inte utifrån, utan från de egna switcharna.

– Spridningen blir väldigt snabb genom att alla de här switcharna sitter ihop. Överbelastningen skalar upp exponentiellt. Till slut klarar inte switcharna att hantera servrarnas kommunikation med disksystemen och allt går ner, säger Mikael Norberg.

Det dröjde till i onsdags förraveckan innan Försäkringskassans tekniker i en testmiljö kunde fastställa den exakta orsaken till att switcharna plötsligt börja löpa amok – en firmwarebugg i chassiswitcharna. Firmware är en liten programkod som är inbyggd i switcharnas hårdvara.

Felet rapporterades till IBM som nu påbörjat arbetet med en patch som ska åtgärda buggen.

– Fram till dess använder vi en tillfällig lösning för att komma runt det här problemet, säger Mikael Norberg.

Är ni det enda datacentret som råkat ut för den här buggen eller har andra som kör samma hårdvarukonfiguration också drabbats?

– Det finns ju flera som kör en likadan setup – IBM:s bladserverchassiswitchar med fcoe-kommunikation. Vad vi har hört verkar vi vara först ut med det här felet, i den här skalan i alla fall, säger Mikael Norberg.

Fcoe är en teknik för att blanda fiber channel och ethernet.

IBM bekräftar att de arbetar med en uppdatering till switcharnas firmware, men anser samtidigt att det inte är bekräftat att nuvarande firmware innehåller en bugg.

”IBM:s switch kunde inte ta emot det kraftiga flödet från Juniperswitchen, vad som orsakade det flödet är fortsatt inte klarlagt”, skriver IBM:s presstalesman i ett mejl till Computer Sweden, och tillägger

”Därmed inte sagt att problemet ligger i IBM-systemet. IBM:s installation är certifierad enligt gällande standarder och vi jobbar nu tillsammans med övriga leverantörer på att identifiera grundorsaken. IBM har levererat tusentals servrar med denna switch integrerad utan att motsvarande problem uppstått, detta är för oss en unik situation”.

Fakta

  • Hur fick firmwarebuggen switcherna att löpa amok?

– Buggen kan trigga igång det här felet i samband att en enda av de här switcharna startas om, det kan exempelvis vara efter ett strömavbrott eller vad som helst, säger Jörgen Spjälle, kommunikationstekniker på Försäkringskassans datacenter.

Även samspelet med produkter i andra leverantörer i hårdvarusetupen kan ha betydelse.
 
  • Varför triggade buggen i gång den här händelsekedjan just den 22 september. Ni har ju kört hårdvarusetupen i över ett år och de switcharna måste väl ha startats om vid fler tillfällen?

– Vi har provocerat fram det här felet i testmiljö en mängd gånger i över en veckas tid nu. Vid ungefär hälften av gångerna triggas det här scenariot fram. Vid andra tillfällen händer ingenting, säger Jörgen Spjälle.
 
  • Vad hade ni för möjlighet att upptäcka den här firmwarebuggen innan haveriet inträffade?

– På den nivå vi talar om här, är vi i princip blinda ur ett felsökningsperspektiv. Det krävs till att börja med speciell programvara från leverantören för att överhuvudtaget kunna se vad händer inne i switchen. Det här är saker som vi kund i normala fall inte har tillgång till, säger Mikael Norberg, datacenterarkitekt på Försäkringskassan.

– Vi har under ett års tid genomfört ganska så rigorösa tester av den hårdvarusetup vi använder, men vi har inte testat ner på firmware-nivå, säger Jörgen Spjälle.

– Det här rör sig om produkter som vi måste förvänta oss är kvalitetstestade av leverantören innan de kommer hit, säger Peter Axelborn, datacentrets produktionschef.