Medan ursprunget till termen är elusiv och debatteras, är stora data ett av de begrepp som många vet om, men det trotsar en enkel definition. Kärnan i stora data, som termen direkt antyder, är en extremt stor mängd data. Detta härrör ofta från olika källor och till och med olika typer av data, som sedan knuses genom avancerade analytiska tekniker som förhoppningsvis väljer ut mönster som kan leda till användbara slutsatser.

Stora data leder också till de tre Vs: Volym, Variety och Velocity. Volymen hänvisar till dataens storlek, sorten indikerar att dataseten är icke-homogena och hastigheten är den hastighet vid vilken analysen äger rum, ofta med målet att uppnå realtidsanalys.

Dataseten är faktiskt allvarligt stora - vi pratar terabytes till zettabytes (1ZB motsvarar 909.494.701TB, för nyfiken). Förutom storleken på dessa dataset kan uppgifterna vara av olika slag: strukturerade, halvstrukturerade och ostrukturerade, plus det kan dras från flera källor.

Detta ber om frågan om var all denna data genereras från. Det kommer från alla typer av platser, inklusive webb, sociala medier, nätverk, loggfiler, videofiler, sensorer och från mobila enheter.

Det senare är särskilt viktigt eftersom de flesta av oss håller våra telefoner med oss ​​och 24/7, och de har en mängd sensorer, inklusive GPS, kameror, en mikrofon och en rörelsessensor. Vidare är majoriteten av smartphoneanvändningen inte röstkommunikation utan snarare andra aktiviteter, inklusive e-post, spel, webbsurfning och sociala appar - vilket i sin tur innebär att 90% av användningen är mobila appar. En stor förare av stora data är den här mobila data som genereras i en breakneck-takt.

Data mining

Men data utan analys är knappast värt mycket, och det här är den andra delen av den stora dataprocessen. Denna analys kallas data mining, och det strävar efter att söka efter mönster och anomalier inom dessa stora dataset. Dessa mönster genererar sedan information som används för en rad olika ändamål, till exempel att förbättra marknadsföringskampanjer, öka försäljnings- eller skärekostnader. Den stora data- och data miningstrategin har inte bara kraften att omvandla hela industrin, men den har redan gjort det.

Till exempel är Trainline en ledande europeisk oberoende tågbiljettförsäljare, som säljer inhemska och gränsöverskridande biljetter i 173 länder, med cirka 127 000 resor som tas dagligen av kunderna. Företaget utnyttjade stora data för att modernisera sitt sätt att resa, med fokus på att förbättra kundupplevelsen via innovation genom dess app.

Resultatet är att kunderna nu får förbättrade avbrottmeddelanden via appen. Mer än bara meddelanden om förseningar är dessa förbättrade meddelanden specifika för varje resenärs resa, en första för den brittiska järnvägsindustrin. Företaget har också blivit innovativt när det gäller prediktiv prissättning, vilket kan förutsäga när förskottspriserna kommer att stiga från den initiala diskonteringsräntan, vilket gör det möjligt för passagerare att köpa priser till lägre priser.

Stora data har också använts i restauranger, och i synnerhet snabbmatindustrin. McDonalds är världens största restaurangkedja av intäkter och serverar över 69 miljoner kunder dagligen på över 36 900 platser i över 100 länder.

På grund av enbart volymmängd genereras massor av data, och därför har McDonalds antagit en datadriven kultur med målet att förbättra sin förståelse för nivån på varje enskild plats med det övergripande målet om en bättre kedja av restauranger.

Genom stora data har McDonalds optimerat sin genomkörningserfarenhet, till exempel att notera storleken på bilarna som kommer igenom och förbereda sig för en ökad efterfrågan när större bilar går med i kön.

En annan stor datainnovation har varit de digitala menyskärmar som flexibelt kan visa menyalternativ baserat på en realtidsanalys av data. Menyerna skifter de markerade objekten utifrån data inklusive tid på dagen och vädret utanför, speciellt för att främja kalla drycker när det är varmt ute och mer komfortmat på svalare dagar. Detta tillvägagångssätt har ökat försäljningen på kanadensiska platser med en rapporterad 3% till 3,5%.

Hälsa spelar roll

Denna stora datatillvägning har också tillämpats på vården. Ett tydligt exempel är det stora skiftet bort från "penna och papper" -diagrammet där din läkares data är låst i ett arkivskåp på kontoret, till Electronic Health Records (EHR), som nu har all patientinformation noggrant ingått i en databas , redo att göras.

Detta tillvägagångssätt lovar att vara störande, med en ny publikation i European Heart Journal som lovar “potential för att förbättra vår förståelse för orsakssjukdom och klassificering som är relevant för tidig översättning och bidra till användbar analys för att förbättra hälso- och sjukvården”.

Fördelarna med stora data inom hälso- och sjukvården kommer att gå utöver datautvinning av EHR. En betydande utmaning för sjukhus är bemanning, vilket alltid måste vara tillfredsställande, med potential att ramla upp under toppperioder.

Vid en grupp av fyra Paris sjukhus som består av Assistance Publique-Hôpitaux de Paris (AP-HP), ser de på att förbättra flexibiliteten i bemanningen. De använde en dataset om 10 års sjukskrivningstillfällen, ner till en granulär nivå av antalet dagliga intag, liksom dagens tid, och kombinerat det med väderdata, influensamönster och helgdagar.

Med hjälp av maskininlärning slog de sedan sina algoritmer för framtida trender för att förutse antalet kommande inflytningar för olika dagar och tider. Resultatet är att de nu har ett lättanvänt, webbläsarbaserat gränssnitt för sjukhusadministration samt klinisk personal som kan förutse upptagningsräntor de närmaste 15 dagarna, vilket används för att få extra personal ibland när en större Antalet antaganden förväntas.

Med data, och i synnerhet mobila data som genereras i en löjligt snabb takt, behövs det stora datafunktionen för att vända denna massiva informationskälla till handlingsbar intelligens. I de exemplar som vi nämnde ovan har utmaningen varit uppfylld och när ännu mer data samlas in kommer det att finnas fler möjligheter att öka kvalitet och effektivitet i flera olika branscher via snabbare och bättre analys av dessa olika spridda dataset.

  • Vi frågar också: Är stora data ett stort misslyckande?