Champions League-finalen var inte bara ett spännande spel, men det var också en potentiell spelväxlare: Liverpool Striker Mo Salah, årets spelare, mottagare av Golden Boot och Egypts mest kända spelare hade plötsligt fått sin biljett till VM tvivlade efter en aggressiv utmaning från Sergio Ramos lämnade honom skadad.

Implikationerna för denna tackling kunde ha varit enorma: Om Salah inte kunde spela för sitt land (det visar sig att han har gjort det nästan omöjliga och passar) skulle det kunna ha påverkat Egypts chanser under VM, och medan Egypten Det är osannolikt att det inte kommer att vara störande i tävlingens senare omgångar, som en fjäril som klappar vingarna på andra sidan världen, kan Egyptens prestanda i sin tur påverka hur de andra lagen i sin grupp gör - och i slutändan påverka vilket land som kommer att lyfta trofén.

Detta sagt, Salahs potentiella fall är bara en av bokstavligen miljoner datapunkter. En av miljontals faktorer som i slutändan kan påverka resultatet av tävlingen.

Hur kan vi ta hand om vad du kan förvänta dig då? Finns det något sätt att förutse hur lag ska utföra? Kan Big Data, som redan har omvandlat otaliga andra branscher, låsa upp en djupare förståelse för det vackra spelet? Kunde det förutsäga vem som vinner VM?

Datapunkter

Opta Sports och STATS är två företag som försöker svara på frågor som detta. Som idrottsdatabolag är deras uppdrag att samla in data och förnuftiga det för sina kunder, vilket inkluderar sportlag och federationer, samt media som är hungriga för datainsikten (ahem).

“Det är mycket lätt att tro att mer data är bra, men tills du vet hur du ska använda den och vad du kan lära av det, kan det ibland vara data för datas skull”

Paul Power, STATS.com

Vad samlar de faktiskt in då? Opta marknadschef Peter Deeley förklarade att för varje fotbollsmatch samlar hans företag omkring 2000 individuella datapunkter, mest fokuserade på “on-kula” åtgärder. Ett team av tre analytiker - en för varje sida och någon för att dubbelkontrollera svåra stunder, kommer att sitta i företagets datafält i Leeds och registrerar i huvudsak allt som händer på planen: varje pass, kors och skott, liksom positionerna på fältet där varje interaktion har ägt rum.

Uppgifterna levereras till kunderna, vilket är varför, till exempel, Storbritannien pundit (och tidigare England spelare) Gary Lineker kan berätta tittare om statistik som besittning och skott på mål på halv tid.

Stats.com gör samma sak - och Paul Power, en datavetenskapare vid företaget, var angelägen om att berätta om hur det inte bara är människor som används för datainsamling, men ny datasynsteknik.

När det gäller att noggrant registrera varje spelares position på planen använder hans företag kameror placerade runt kanten för att räkna ut det, vilket sparar behovet av att spelare ska bära spårvagnar under sina skjortor, som har hänt i sport som Rugby Union.

Men varför hålla sig till människor? Kunde inte datorvision användas för att logga in Allt av denna typ av data? “Människor är fortfarande bäst på grund av nyanser att datorer inte kommer att kunna förstå,” argumenterar paul.

Han ger exemplet vad om en spelare hörs och sparkar bollen iväg från desperation, men lyckligtvis är bollen mottagen av en spelare på samma lag. Till en maskin kan det här se ut som ett långt pass, eftersom maskiner inte kan fungera i samband med vad som händer eller panikens utseende på spelarens ansikte - det skulle logga ett långt pass, medan tekniskt sett är händelsen tekniskt något Annars: Ett godkännande. Det innebär att den inloggade dataen kan vara mindre noggrann, utan att en person gör dessa samtal.

Opta-tillvägagångssättet

Vi vet att båda företagen har mycket data - men vem tror de faktiskt kommer att vinna VM? Även om båda företagen genererar mycket detaljerad information för sina kunder, har intressanta STATS och Opta avvikit när det gäller att modellera sommarens turnering.

I Opta-fallet förklarade Peter för mig att deras VM-modell inte tar hänsyn till de otaliga enskilda spelarnas data. Istället har Opta valt att bara titta på de specifika nationella truppernas prestationer på lagnivå. Till exempel, att utvärdera Egyptens chanser baserat på hur det egyptiska laget utförde tidigare och utan att ta hänsyn till Mo Salahs skadasituation.

“Datavetenskapare för VM kollar på de olika ländernas historiska prestation, vilken skillnad gör det om du spelar som värdnation, vilken skillnad gör det att du spelar på din hemkontinent. "

Peter Deeley, Opta

“Datavetenskaparna för VM kollar på de olika ländernas historiska prestation, vilken skillnad gör det om du spelar som värdnation, vilken skillnad gör det att du spelar på din hemkontinent [och] vilken skillnad gör det det gör om du har vunnit de senaste världscupen,” Peter förklarar.

Datavetenskaparna kunde sedan tweak modellen genom att köra det hundratusentals gånger för att göra iterativa förbättringar, justera den relativa vikten av varje faktor i algoritmen.

Det här är en överraskning, eftersom du antar ju mer data desto bättre, men Peter tror att den här modellen fortfarande kan ge bra förutsägelser.

“En VM görs bara vart fjärde år, så du kommer ofta att finna att en anständig kvalitetsspelare som spelar för ett land som ofta spelar i VM, kommer bara att spela i två VM-turneringar - du kommer inte få så mycket data om att spelare påverkar det bredare laget, inom den internationella uppsättningen.” han säger.

Och han tror att denna lagnivådata är tillräckligt: “Italien vann 2006 - de var inte favoriter och kvaliteten på deras trupp, men bra, de var inte ett lag som hade en Cristiano Ronaldo-nivå superstar.”

Han fortsätter med att förklara: “Det är väldigt intressant, med världscupen är det sant att de lag som historiskt gör det bra fortsätter att fungera bra. Tyskland, i de senaste tre världscupen har åtminstone kommit till semifinalen.

"Även om du kan argumentera för deras lag den här gången är inte lika bra som förra gången, har de fortfarande den historien om att vara nuvarande världsmästare, att vara ett lag som i allmänhet fungerar bra - och det är på deras hemkontinent. menar att de har en bra chans i allmänhet, inte oavsett deras lag, men de har en historia att spela bra på turneringar.”

“Det är mycket lätt att tro att mer data är bra, men tills du vet hur du ska använda den och vad du kan lära av det, kan det ibland vara data för datas skull”, han säger.

STATS-modellen

STATS har modellerat VM ganska annorlunda. Till skillnad från sin rival tar det hänsyn till enskild spelardata för vad det kallar “Tänk om?” Analytics.

Enligt Paul betyder det att STATS effektivt kan använda enskilda spelardata för att utarbeta, inte bara hur ett lag ska utföra, utan också kvantifiera effekterna av byte spelare in och ut ur truppen. I Mo Salas fall hävdar STATS att sitt system skulle kunna utreda effekten på Egypten om han är tillräckligt passform för att spela eller inte.

“Du kan plugga in dessa olika situationer och det skulle kunna generera ett resultat och den åtgärden skulle antingen vara ett antal mål som görs eller medges, eller helt enkelt vinna sannolikhet: hur ökar eller minskar spelaren den chansen? "Paul explains.

“Vi kan titta på det här, kör simuleringarna och det kommer faktiskt att berätta för oss: Mo Salah kan vara värt 0,3 av ett mål, eller om han inte spelar och en annan spelare kommer in, minskar win-sannolikheten med 3% eller 10% eller det kan faktiskt öka det beroende på laget som de faktiskt spelar mot.”

(Bild: © Getty Images)

Varför STATS tror att det enskilda förhållandet fungerar bättre än att titta på lag?

“Alla vet om du saknar dina stjärnspelare, det kommer att påverka prestanda - du behöver inte ett komplext neuralt nätverk för att berätta för dig att,” säger Paul. “Om du saknar det i din dataset, kommer det verkligen att skeva dina sannolikheter och dina förutsägelser”.

“Vi vet att genom att lägga till i dessa ytterligare funktioner från spelarna att vi får bättre konsekvenser för att det vi kan göra bättre är modellen de direkta relationerna mellan individer, och samtidigt som det är en lagsporter, vet vi att vissa individer har större inflytande på resultatet än vissa andra.

"Om du saknar en fullback till exempel kan det vara mindre av ett problem än att sakna en central mittfältare, så du måste ta reda på det och som ett resultat av det är vi verkligen självsäkra i modellen som vi har genererat.”

Berätta för mig vem som ska vinna, dammit

Nu kommer vi till alla viktiga frågorna: Vilket land förutspår de två modellerna att vinna? I båda fallen, som riktiga statsnördar, har de levererat probabilistiska prognoser som innehåller ganska mer nyans än du kompisar Dave, som svär blinda att Tyskland kommer att vinna igen för att han har en bra känsla för dem.

Jag frågade STATS för dess förutsägelser, och tyvärr, trots att företaget är villigt att berätta om alla de uppgifter den har tillgång till, och hur det skulle faktiskt gör en förutsägelse, fick jag veta att de inte kommer att publicera sina förutsägelser i år. Varför? Av rädsla för att vara fel? Nej, svaret är mycket enklare: det här är värdefull information, och de vill bara slösa bönorna till betalande kunder.

Vi har dock en förutsägelse från Opta. Det prissätter fleråriga VM-vinnare Brasilien (bara inte nämna 2014) som de mest troliga mästarna än en gång - vilket ger dem en 14,2% chans att vinna. Det betyder att om du sprang världscupen med exakt samma lag 20 gånger över, skulle du bara förvänta dig att Brasilien vinner tre gånger. Liksom din kompis Dave, Opta funderar också Tyskland - vilket ger dem en 11,4% chans att återigen ta hem trofén.

Ett annat företag som gillar att förutse och har en skrämmande noggrannhet i resultaten är EA Sports. För de senaste tre världscupen har det med rätta förutsagt att det eventuella VM-vinnaren.

Med hjälp av de detaljerade uppgifterna som finns på spelare och lagrangeringar i FIFA 2018 och dess World Cup-tillägg, sprang det en simulering av turneringen och Frankrike var de slutliga vinnarna och besegrade Tyskland i finalen. Med tanke på det förutspådde Tyskland och Spanien för respektive världscupen 2014 och 2010, kan detta vara ett bra skrik.

Då finns det Blue Yonder, ett företag som är berömt för att använda AI för att förutsäga ebb och flöde av aktieförvaltningen i några av världens största stormarknader. Det vände nyligen sin hand för att förutsäga VM. Vänsterfält ja, men tekniken har analyserat varje internationell fotbollsmatch som spelats sedan 1872 och kör över 1 miljon simuleringar av VM och anser att Brasilien är favoriterna för att vinna Ryssland, med en 22,5% chans att vinna.

Och vad sägs om England? Den dåliga nyheten för Gareth Southgate är att Opta ger sin squad en låg 1,9% chans, medan Blue Yonder ökar detta lite till 5,7%.

Om Opta och Blue Yonder har rätt, är det högst troligt att vi kan se fram emot att förlora ännu en straffspel. Suck.

TechRadars World Cup-täckning fördes till dig i anslutning till Honor.