Skärmskrapning hur man stoppar internetets osynliga data-leeches
NyheterData är din verksamhet mest värdefulla tillgång, så det är aldrig en bra idé att släppa det i konkurrenternas händer.
Ibland kan det dock vara svårt att förhindra på grund av en automatiserad teknik som kallas "skärmskrapning" som i åratal har gett ett sätt att extrahera data från webbsidor som indexeras över tiden.
Detta innebär två huvudproblem: För det första kan dessa data användas för att få en affärsfördel - från prisunderskridande (till exempel för en prisjämförelsepresentation) för att få information om produkttillgänglighet.
Hållbar skrapning kan också slipa ner en webbplats prestanda, som nyligen hände till LinkedIn när hackare använde automatiserad programvara för att registrera tusentals falska konton i ett försök att extrahera och kopiera data från medlemsprofilsidor.
Ashley Stephenson, VD för Corero Network Security, förklarar ursprunget bakom fenomenet, hur det kan påverka ditt företag just nu och hur man försvarar det.
TechRadar Pro: Vad är skärmskrapning? Kan du prata oss genom några av teknikerna, och varför någon skulle göra det?
Ashley Stephenson: Skärmskrapning är ett koncept som var banbrytande av tidiga terminala emuleringsprogram för decennier sedan. Det är en programmatisk metod för att extrahera data från skärmar som huvudsakligen är avsedda att ses av människor.
I grund och botten låter skärmskrapprogrammet vara en människa och "läser" skärmen och samlar intressanta data i listor som kan behandlas automatiskt. Det vanligaste formatet är namn: värdepar. Till exempel kan information som hämtas från en reseserveringsskärm se ut som följer -
Ursprung: Boston, Destination: Atlanta, Datum: 10/12/13, Flyg: DL4431, Pris: $ 650
Skärmskrapning har utvecklats betydligt under åren. En viktig historisk milstolpe inträffade när skärmskrapningskonceptet tillämpades på Internet och webbroboten uppfanns.
Webbrobotrar läste ursprungligen "läs" eller skärmskrapade hemsidor och indexerade informationen för framtida referens (t ex sök). Detta gav upphov till sökmotorindustrin. Idag är webcrawlers mycket mer sofistikerade och webbplatser innehåller information (taggar) som är dedikerade till sökroboten och har aldrig för avsikt att läsas av en människa.
En annan efterföljande milstolpe i utvecklingen av skärmskrapning var utvecklingen av e-retail skärmskrapning, kanske det mest välkända exemplet är introduktionen av prissammanställningswebbplatser.
Dessa webbplatser använder skärmskrapningsprogram för att regelbundet besöka en lista med kända e-handelsplatser för att få den senaste pris- och tillgänglighetsinformationen för en viss uppsättning produkter eller tjänster. Denna information lagras sedan i en databas och används för att ge aggregerade jämförande synpunkter på e-retail landskapet till intresserade kunder.
Generellt har de tidigare beskrivna skärmskrapningsteknikerna välkomnats av webbplatsoperatörer som vill att deras webbplatser ska indexeras av de ledande sökmotorerna, såsom Google eller Bing. På samma sätt vill e-återförsäljare normalt att deras produkter visas på de ledande jämförelseshoppingplatserna.
eBay introducerade ett API 2004 för att bekämpa skärmskrapning (kredit: homerjoe426)TRP: Har det blivit några senaste utvecklingar i konkurrenskraftig skärmskrapning?
SOM: I motsats de senaste åren är den senaste utvecklingen i konkurrenskraftig skärmskrapning inte nödvändigtvis så välkommen. För att en webbplats ska skrapas av en sökmotor är sökroboten okej om sökrobotarna är sällsynta.
För att en webbplats ska vara målet för en prissamlingssida är skrapan OK om den erhållna informationen används rättvist. Men eftersom antalet specialiserade sökmotorer fortsätter att öka och frekvensen av priskontrollbesöket skyrockets kan dessa automatiserade sidvisningar stiga till nivåer som påverkar målplatsens avsedda funktion.
Närmare bestämt, om målplatsen utsätts för konkurrenskraftig skrapning, kan den erhållna informationen användas för att undergräva webbplatsägarens verksamhet. Till exempel, underkurser priser, slå oddsen, aggressivt förvärva evenemang biljetter, reservera inventering, etc..