Det är sjukt! Text Mining och ord med flera definitioner
NyheterNär du läser titeln på den här artikeln måste du undra vad jag pratar om när jag säger, "Det är sjukt!"
Det är vettigt om jag bara bevittnade en bilolycka så hemskt att det fick mig att känna mig sjuk i magen. Men det är också meningsfullt om jag bara såg Sidney Crosby värdera det spelvinnande målet för guldmedaljsspelet vid OS Olympics 2014. En svårighet med lingvistiken är att samma ord kan ha flera betydelser.
På engelska språket definieras ordet "sjukt" i Oxford-ordlistan enligt följande: "påverkad av fysisk eller psykisk sjukdom". Vad du inte hittar i Oxford-ordlistan är slangen menande för "sjuk", vilken stadsordbok definierar som: "galen, cool, galen".
Bra eller dåligt?
Hur kan en maskin dechifiera om vi pratar om den "bra sjuka" eller "dåliga sjuka"?
Låt oss ta ett steg tillbaka, hur kan människor säga vilken "sjuk" vi pratar om? Människor får hjälp av saker som: kroppsspråk, tonen i kommunikatörens röst, ögonkontakt, ansiktsuttryck, samt kulturella symboler som kläder, frisyr och plats.
Naturlig språkbehandlingsteknik som textmining kan inte använda ovannämnda kommunikationsmetoder. Det är bara inte möjligt ... Ändå. På ungefär 5-10 år på vägen, när bildigenkänning och känsloanalys blir mer avancerade, kan vi börja få signaler från kroppsspråk och röstton.
Textmining måste förlita sig på den kontextuella förståelsen av meningen för att berätta skillnaden mellan de två betydelserna av samma ord.
Orden som omger "sjuka" och ordningen av dessa andra ord tillskriver den kontextuella förståelsen av en mening. Låt oss ta en titt på några exempel:
Exempel 1 - "Titta på den bilolyckan fick mig att känna mig sjuk"
En textminingmotor vet att när ordet "feel" placeras före ordet "sick", är "sick" taggad med negativt sentiment. Motorn vet att sjukdomen är dålig.
Exempel 2 - "Wow, Crosby mål var sjuk!"
Text Mining Engine
En text mining motor kommer att veta att ett "mål" inte kan vara "sjuk" per definition. Ett mål är inte en levande sak, det kan inte påverkas av sjukdom, därför kan ett mål inte vara sjukt. (De flesta text mining motorer refererar deras kunskaper från någon form av semantisk ontologi. Här är ett exempel på Lexalytics textmining konceptmatris.)
Om du arbetar med en dataset om sport kan du dock träna motorn för att bära ett positivt känsla för ordet "sick" när det står i en mening nära ordet "mål".
Det här är inte "lösningen för alla än allt". Ord med flera betydelser, dubbel entenders och sarkasm är väldigt knepiga saker att arbeta när man arbetar med textbrytning. En dag kommer vi att ha en felfri maskin som är programmerad med alla kända dialekter, språk, slang; bokstavligen allt som omfattar språk!
Men för tillfället är det väldigt cool att vi har möjlighet att träna en maskin för att förstå kontext som en människa.
- Scott Van Boeyen är community manager för Lexalytics och Semantria. Syftar till att hjälpa journalister / reportrar med innehåll relaterat till stor data och analys, skriva, blogga och tillhandahålla tanke ledarskap genom sociala medier.