IT-infrastruktur misslyckas som om de senaste två decennierna aldrig hände - Del 2
NyheterI del 1 i den här serien undersökte vi de senaste datacentrets strömavbrott och orsakerna till dessa “försiktighetsberättelser” kom överens. Låt oss nu diskutera praktiska tips för att minimera risken för avbrott i affärskritisk infrastruktur.
Komma förbi missuppfattningar
Mänskligt fel och / eller utrustningsfel är ofta citerat som grunden till många tekniska systemavbrott, men för det mesta orsakar dessa element inte själva stora katastrofer. Snarere är de symtom på ett större problem - dålig hantering och drift.
Ledarskapsbeslut och prioriteringar som leder till bristande personal och utbildning, en organisatorisk kultur som domineras av “brandövningar,” eller budgetnedskärningar som minskar nödvändigt underhåll, kan leda till genomgripande misslyckanden som strömmar från toppen ner.
Även om frontlinjen operatörsfel ibland kan förekomma orsaka en händelse, är ett enda misstag (precis som ett enda datacenter-komponentfel) inte tillräckligt för att få ett robust komplext system till knäna, såvida inte systemet redan tar sig an kanten av kritiskt misslyckande som ett resultat av många underliggande riskfaktorer.
Det är sant att sårbarheter är närvarande inom även de bäst designade datacenterna. Företag med komplexa IT-system bekämpar risken för misslyckande med flera lager skydd och backup. Så igen, när IT-misslyckanden sker, beror det inte på brist på backup-system eller något särskilt problem, det är en indikation på dålig hantering.
Katastrofala datacenterhändelser som de vi såg 2017 kan undvikas om organisationer utformar sin infrastruktur upp till industristandarder, med redundans och andra förebyggande åtgärder bakat in och genomför stringenta hantering och operationer bästa praxis.
Varje företag ska genomföra noggranna misslyckande analyser och tillämpa de lärdomar som läses när man utvecklar och förfinar sitt program för att affärskritiska anläggningar ska bli eftergivliga och framgångsrika på lång sikt. Varje organisations responsivitet, förtrogenhet och efterlevnad av dokumenterade förfaranden är nyckeln till utvärdering av prestanda.
Praktiska överväganden för att minimera risken
Under de senaste 20 åren har Uptime Institute levererat verksamhetsbedömningar över hundratals datacenteranläggningar och har identifierat nyckelhanteringsbrister som ökar risken.
Många datacenterprogram - även noggranna verksamheter som har blivit framgångsrika - är föremål för olika risker och kan förbättras genom kontinuerlig bedömning och utveckling.
Ta en stund att granska ditt program med ett objektivt öga. om du kan svara ja på någon av följande frågor kan du uppleva en kris i förvaltningsriktigheten:
· Är datacentralens röstbrevlådor fulla, e-postmeddelanden som inte svarat på, gränsvärdet för e-postinmatning har överskridits?
· Kritiska möten missas eller rutinmässigt avbrutits?
· Rapporterar ditt datacenterlag en brist på tid för träning?
· Finns det några viskningar om en potentiell brist på kvalificerad personal?
· Är vissa lagmedlemmar som utför arbete utanför sin kompetens?
· Upplever din personal hög personalomsättning?
· Har underhållet överskridit sin budget? Vad sägs om energikostnadsskatt?
· Ser baksidan av dina servrar eller kabelbrickor ut som en spaghettikruka blåste upp?
· Har din utrustning och kablage brist på tydliga märkningssystem?
Det kan vara relativt lätt att bestämma andra underliggande riskfaktorer som inte lämnas av ledningen. Gå igenom din anläggning och fråga dig själv dessa frågor för att säkerställa lämpliga processer och dokumentation finns på plats:
· Finns det några brännbara material på det upplysta golvet, i batterirummet eller i elektriska rum? All inkommande utrustning ska avlägsnas för förpackningar utanför det kritiska utrymmet.
· Är orelaterade föremål-kontorsmöbler, hyllenheter, verktyg-lagrade i kritiskt utrymme? Det här är en brand-, säkerhets- och föroreningsproblem.
· Har några brandsläckare på platsen utdaterade taggar?
· När var senast du granskat hushållspolicy och procedurdokumentation?
· Om anläggningen driver ett upphöjt golv, vad är tillståndet för golvplenum? Detta område ska rengöras regelbundet - fråga för att se schemat.
· Hur många anställda har tillgång till det kritiska utrymmet? Har din organisation till och med en åtkomstpolitik för personal?
· Är icke-bevittnade personer tillåtna i kritiska områden? Be om att se leverantörens inchecknings- och träningskrav. icke-bevittnade personer borde aldrig tillåtas.
· Är paneler, switchboards och ventiler märkta för att indikera “vanligt” operativa positioner?
· Är bågaska etikettering installerad på alla paneler och PDUer?
I över ett decennium har datacenterkylningspraxis krävt luftflöde isolering-cool luft levereras på framsidan av ett rack av IT-utrustning och varmluft uttömt i ryggen.
I en upphöjd golvmiljö anordnas vanligtvis radier av utrustning i en varmluft - kallgångskonfiguration, där perforerade plattor levererar kall luft till kylgången eller serverintaget.
När du granskar organisationens kylprocesser, överväga följande indikatorer för dålig förbikoppling av luftflödeshantering. Dessa faktorer kan leda till ökad risk, ineffektivitet i kylning, slöseri med pengar och dålig efterlevnad av bästa metoder för nyckelhantering:
· Det finns riven eller perforerade paneler i Hot Aisle.
· Det finns obelagda utklipp i det upplysta golvet.
· Det finns uppenbara luckor i rackarna mellan IT-hårdvara.
Här är flera andra viktiga steg som kan hjälpa till att identifiera delar av ditt datacenter som utgör dåliga hanteringsprocedurer och ökad risk för stillestånd:
· Be om att se register och scheman för underhållsaktiviteter på batterier, motorgeneratorer och mekaniska system.
· Granskning av personaldokumentation - övertidssatser som är större än 10 procent kan leda till en ökning av mänskligt fel, vilket kan öka sannolikheten för ett avbrott. Är roller och ansvarsområden dokumenterade? Är kvalifikationer listade?
· Be om att se lista över förebyggande underhållsaktiviteter. Är aktiviteterna fullskriven? Vad är kvalitetskontrollprocessen?
· Ta reda på vem som håller kritisk dokumentation om utrustning, inklusive garantiinformation, underhållsuppgifter och prestandadata.
· Revidera din process för att behålla referensbiblioteket (personal, utrustning, underhåll, procedurer och skript).
· Analysera ditt lags träningsregister, årlig budget och tidsfördelning.
Organisationer fortsätter att anta olika nya IT-modeller för att hantera det ständigt växande beroende av teknik och data i modern verksamhet. Som sådan har tillgänglighet aldrig varit viktigare.
Även om det är praktiskt taget omöjligt för organisationens webbplatsprocesser, förfaranden och webbplatskultur att vara perfekt, är framgångsrika IT-infrastrukturlag fortfarande hyperfokuserade för att förhindra misslyckande.
Det innebär att du alltid är vaksam och ständigt adresserar (och läser) ovanstående överväganden för att identifiera dolda svagheter i din IT-verksamhet, som kan tjäna som grund för produktiva konversationer om förändring och förbättring. Det faktum att din anläggning inte har upplevt en incident men det betyder inte att det är immun.
Ett solidt engagemang för ledarskap och verksamhetsexpertise kan ha en enorm inverkan på din IT-infrastruktur, så fråga de svåra frågorna och täcka alla dina baser för att eliminera förebyggbara avbrott.
- Lee Kirby är president för Uptime Institute
- Matt Stansberry är senior chef för innehåll och publikationer på Uptime Institute
- Kolla in de bästa dedikerade servrarna