IT-infrastruktur misslyckas som om de senaste två decennierna aldrig hände
NyheterI grekisk mytologi var kung Sisyphus en arrogant härskare som trodde att han var smartare än Zeus. Som straff för sin hubris var Sisyphus uppgift att skjuta en sten på en kulle i underjorden, bara för att få det att spinna ur kontrollen och rulla ner igen.
Baserat på de senaste nedgångshändelserna för datacenter kan vi bara beskriva processen för att hålla IT-infrastrukturen igång som Sisyphean. Datacenters ägare och operatörer tittar upprepade gånger när klockan glider ur deras grepp och tillbaka nerför backen.
Företagen har krävt oavbruten tillgång till IT-tjänster under de senaste två decennierna. Så, majoriteten har antagit tekniska, tekniska och ledande bästa praxis för att undvika tillfälliga händelser.
Företagen investerar miljarder dollar och otaliga timmar med planering, övningar och förberedelser för operativ beredskap. Och ändå plågar stilleståndstillfällen fortfarande industrin; rocken fortsätter att rulla tillbaka.
Det var åtta stora IT-serviceavbrott i den första månaden 2017 ensam.
Utvärderingen av stora offentliga IT-infrastrukturutbrott är inte att skämma bort dessa organisationer, utan att påpeka att det kan hända någon, från branschledare som Amazon, som är stolta över sina motståndskraftstrategier, till små myndigheter.
Orsakerna till avbrotten är så ofta samma problem som uppenbarar sig om och om igen. Den gemensamma tråden i dessa händelser, mellan företag och tjänsteleverantörer är förebyggbarhet. Dessa företag och webbplatser investerade och beredde att avvärja villkor som orsakat avbrott, och de misslyckades. Misstag gjordes.
Det har gått flera skador sedan denna lista sammanställdes, men du kan se hur i en enda månad många högprofilerade varumärken med kritiska online- och digitala affärsprocesser stördes av misstag som vår bransch verkar ha löst för tjugo år sedan.
Varför är företag som har investerat i flera nivåer av fysisk och logisk redundans fortfarande ned till de priser som vi för närvarande ser idag? Det är inte som om det inte finns standarder, tekniker och processer på plats för att förhindra stillestånd.
Dessa misslyckanden fortsätter att hända eftersom förebyggande politik och felsäkerhetsskåp görs ineffektiva av mänskliga fel.
Inte alla rapporter gav de exakta orsakerna till avbrott, men minst 40 procent av nedgångstiden hände till följd av strömavbrott. Den viktigaste funktionen hos ett företagsdatacenter är att mildra denna exakta risk och det är fortfarande den främsta orsaken till nedetid.
Omkring 30 procent av problemen berodde på nätverks- eller programvarufel. Och bara en handfull uppstod på grund av “freakolyckor.” Takeaway är igen, orsakerna till nedetid hade förväntats och förberedts för, och de gick fortfarande ner.
Ta bort från denna analys är att en stor andel av dessa dyra incidenter inte behövde hända. Problemen var fullständigt förebyggbara - inklusive de två högsta profilerna i nedanstående år:
British Airways slängde en datacenterteknikentreprenör under bussen för att vända den felaktiga omkopplaren, vilket orsakade ett kaskaderavbrott som kostade hundratals miljoner dollar. Men varför var en dåligt utbildad eller underberedd entreprenör i den positionen i första hand?
När Amazon slog av stora kunder från hela världen bestämde den sig för att incidenten orsakades av en felaktig tangenttryckning från en tekniker. Åter var varför den tekniker satte sig i en position där den typen av kaskad misslyckande var till och med möjligt?
Industrin i stort fokuserar alltför mycket på “Mänskligt misstag,” som vi tycker är en vilseledande term. Det är ett hanteringsfel när någon är utbildad eller obekant med nöd- och standardprocedurer, eller hur man hanterar vissa utrustningsmetoder - inte mänskligt fel.
Felet ligger hos chefen som tillåter denna situation att äga rum, inte den främsta tekniken som försöker rädda en situation.
I dagsläget bygger dagens IT-infrastruktur på ett ekosystem av leverantörer och datacentraler, som ofta stack upp varandra beroende på varandra som ett Jenga-torn. Om du drar ut ett visst obetydligt stöd, kan hela saken gå ihop.
Och ändå, låt oss jämföra de olika branschreaktionerna till de senaste utbrotten. Å ena sidan har du verkställande direktörer från flygbolag som tar ägande av sina brister i Wall Street Journal och den New York Times.
Däremot hävdade världens största leverantör av cloud computing att det går så sällan att det inte visste hur man skulle kunna bearbeta sitt stora störningar.
Uppriktigt sagt skulle även den mest överskridande nivån på internetforskning säga att svaret är vildt felaktigt. Och ändå är det illustrerande hur de hyperskade molnleverantörerna ser företaget - ta det eller lämna det. Och för det mesta tar folk det.
Enligt Uptime Institute's 2017 Data Center Industry Survey rapporterade endast åtta procent av respondenterna att deras verkställande ledning var mindre oroade för IT-avbrott än vad de var för ett år sedan.
Det betyder att 92 procent av infrastrukturexekverna är lika oroade, om inte mer, om deras organisationers IT-resiliency och tillgänglighet. Ändå fortsätter olycksfrekvensen. 25 procent av de svarande rapporterade att det uppstod ett IT-serviceavbrott under det gångna året.
Under de senaste två decennierna har företagen skjutit upp den här kullen uppför kullen och vet att det kommer att krascha ner igen. IT-infrastrukturen blir alltmer komplex, ömsesidigt beroende och fragmenterad.
Det finns inte ett enkelt svar som kommer att uppstå magiskt när hyperscales har minskat det mesta av företags IT till en spökstad med äldre maskinvaror. Dessa företag betalas inte för att mildra och hantera din organisations risk - du är.
Det finns välskötta metoder som execs kan genomföra för att lyckas hantera IT-infrastrukturrisken, men ett bra första steg skulle vara att räkna med de två största utmaningarna för vår bransch:
· Trots årtionden av utbildning, investeringar och erfarenhet är datacenterkrascher vanliga och händer av samma skäl som de gjorde för tjugo år sedan. Brist på uppmärksamhet på detaljer, korrekt hantering och ansvarighet resulterar i skador runt om i världen.
· Löpande antagande av cloud computing och colocation av företags IT-avdelningar gör IT-systemen mer bräckliga på kort sikt, eftersom ömsesidiga IT-tillgångar hanteras under olika servicenivåer och investeringar, ofta med liten hänsyn till perifera konsekvenser.
Som organisationer fortsätter att anta hybrid-IT-modeller, illustrerar dessa exempel att vi inte kan ta tillgången för givet. IT-avbrott är överflödiga och fullständigt förebyggbara.
Denna del är en av två på infrastrukturfel, läs del två för att lära sig om bästa praxis som organisationer kan använda för att minimera risken för att bli en försiktighetspresent som de som finns i dagens artikel.
- Matt Stansberry är Uptime Institute Senior Director of Content & Publications och programchef för Uptime Institute Symposium
- Lee Kirby är ordförande för Uptime Institute
- Kolla in de bästa dedikerade servrarna