Är ditt nätverk redo för stora data?
NyheterDen stora i stora data är tillräckligt för att de flesta IT-arkitekter oroar sig för möjligheten att öka belastningen på en redan beskattad infrastruktur. När företagen flyttar från experiment till bred användning av stora data och andra grupperade applikationer blir nätverket som stöder hela grejen både mer kritiskt och mer laddat än någonsin.
IT-ledare måste fråga sig en enkel fråga: Är mitt nätverk redo för stora data?
Stora data är stora, men inte hur du tänker
När de flesta tycker om stora data, föreställer de sig massiva applikationer som spänner över tusentals noder till stöd för de största webbskalorna. Även om det är sant att dessa implementeringar existerar (Yahoo har i synnerhet mer än 40 000 Hadoop noder), är den genomsnittliga företags stora datautbredningen faktiskt i 100 till 150 nodeintervallet.
Så, om den genomsnittliga utplaceringen är relativt liten, är skala även ett problem?
För de flesta företag kommer skalan inte att handla om en eller två stora dataprogram. Idag experterar företag som redan experimenterar inom detta område verkligen bara tårna i det ordinarie stora datavatten. Utvecklingen är liten eftersom de är mer av ett experiment än en företagskritisk applikation. Om emellertid dessa initialer fördjupar sig i affärsframgången för rymden, förvänta sig tillägget av andra applikationer att snabbt följa.
Den troliga kursen som detta kommer att ta är spridningen av små stora dataprogram, som varje konsumerar några hundra noder. Medan de flesta företag aldrig kommer att uppleva komplexiteten hos en 10.000-nodsutplacering, kommer de att börja uppleva den sammanlagda belastningen på några dussin mindre applikationer.
Bandbreddens roll för stora data
Hela förutsättningen för stora data är att bryta stora arbetsbelastningar i mindre, mer förbrukningsbara bitar. För att göra detta måste data replikeras till servrar i ett kluster. Eftersom de flesta stora dataprogram gör tre kopior av varje information (två i racket, ett i ett annat rack för elasticitet) blir belastningen på nätverket stor mycket snabbt.
Traditionellt görs hanteringsbelastning på ett nätverk med en teknik som heter Equal Cost Multi-Pathing (ECMP). I huvudsak distribuerar ECMP flöden över ett litet antal lika kostnadsvägar i nätverket. Så även om det finns många sätt att komma från punkt A till punkt B väljer ECMP den kortaste vägen och lastbalansen över dem. För stora dataflöden kan detta skapa problem. När du skickar mycket trafik över samma antal vägar kan du få trängsel i nätverket. De flesta stora dataprogrammen hanterar överbelastning genom att helt enkelt skicka tillbaka begäran. Men under tider med trängsel förvärkar återföringen bara problemet.
Den hetaste trenden i nätverk är en teknik som kallas programvarudefinierad nätverk (SDN). SDN: s centrala arkitektoniska princip är separation av kontroll och vidarebefordran. Genom att skapa en central kontrollpunkt kan SDN intelligent titta på nätverket i sin helhet. Detta gör det möjligt att intelligent vidarebefordra trafik längs längre men mindre trafikerade vägar. Det kan vara att antagandet av icke-kostnadseffektiv multi-pathing är en nyckel för att framgångsrikt skala infrastruktur för stora data.
Mer än bandbredd
Medan SDN kan hjälpa till att lindra bandbreddsproblemen genom att använda mer av de tillgängliga vägarna i nätverket, är det inte bara om bandbredd att skalera stor data. Om tillväxten av stora data i företagsdatacentrar innebär flera applikationer, innebär det att det mer hotande skalningsproblemet är hur nätverket kan redovisa olika tillämpningar med olika krav.
De flesta nätverk idag är byggda för att vara agnostiska för de applikationer som körs på dem. Det innebär att nätverket är utformat för att vara allmänt ändamålsenligt och behandlar alla applikationer på ungefär samma sätt.
Men inte alla stora dataprogram är desamma. Vissa är mycket bandbredd tunga (som med data backup). Andra är mer latentkänsliga (som rekommendationsmotorer i AdTech). Andra är känsliga för jitter eller förlust. Och fortfarande andra har strikta överensstämmelseskrav (PCI eller HIPAA). Poängen här är att det är omöjligt för ett enskilt nätverk att behandla dessa applikationer annorlunda om det nätverket inte är åtminstone något programmedvetet.
SDN har potential att stödja applikationskraven via abstrakt politiskt uttryck. Med andra ord kan användarna definiera en applikation och tillskriva de saker som är viktigast. Om bandbredd är viktig kan regulatorn dynamiskt skapa högkapacitetslänkar vid behov. Om latens är viktig kan regulatorn försäkra sig om att den kortaste möjliga vägen alltid används. Om isolering av trafik för överensstämmelse är kritisk kan regulatorn skapa tunnlar.
Framtiden för företagets IT förändras dramatiskt, leds av applikationer som stora data. Lyckligtvis skulle tekniska framsteg i den underliggande infrastrukturen erbjuda lättnad för företag som vill utnyttja. IT-arkitekter måste dock noggrant plotta sina infrastrukturkurser och medvetet se till att den underliggande infrastrukturen skär de applikationer de vill köra.
- Michael Bushong, marknadschef vid Plexxi