Diggs ledande forskare talar om samarbetsfiltrering
NyheterBakom scenerna på många webbplatser slår samarbetsfilter på inställningar av personer som liknar dig för att hjälpa andra produkter, historier eller länkar som du kan njuta av.
Du har sett dessa filter i aktion i Amazons "Kunder som köpt denna artikel köpte också" -funktionen, i Diggs "Rekommendationer i kommande", och många andra ställen.
Vid South By South West Interactive kom en panel bestående av representanter från Digg, The Filter, Baynote, Netflix och Last.fm tillsammans för att prata om vikten av dessa rekommendationsmotorer.
Anton Kast, ledande forskare vid Digg, förklarade hur dessa filter började med e-post och Usenet-filtrering baserat på människors betyg, innan de flyttades ut ur forskningsområdet och på det dagliga webben.
"Tanken med samarbetsfiltrering är helt enkelt att kombinera inmatningen från många olika personer för att filtrera information bättre än vad som annars skulle vara möjligt. I synnerhet använder du information från många oberoende domar av många människor, att göra något du inte kunde ha gjort just med datavetenskap och metadata och fakta som inte kom från riktiga människor. "
Kast fortsätter: "Denna teknik är överallt. Det kan låta dunkelt, det kan låta specialiserat, men det är faktiskt så enkelt att det är nästan universellt."
Vanliga exempel är Gmail-spamfilter, PageRank, taggning av YouTube-videoklipp, avstämning av kommentarer på forum och hjälpsystem.
Så det är samarbetande filtrering, men vad är rekommendation?
"Varje samarbetsfiltrering där produktionen är personlig, säger Kast, som pekar på rekommendationer på Amazon, musik på Last.fm och filmer på Netflis som exempel.
Och naturligtvis visas samarbetande filtrering på Digg. "På Digg kan vem som helst skicka in en historia", säger Kast. "Och vem som helst kan rösta på någon historia - det är filtreringsdelen och vad som helst som är mest populära vinster. Det är ett jätte samarbetsfilter i enklaste klassisk mening. Men om du loggar in tittar vi på din rösthistoria, korrelerar med andra människors rösthistorik och hitta historier som dessa andra människor tyckte om och visa dem, så du får personlig samverkande filtrering. "
Men det finns fyra grundläggande problem med detta tillvägagångssätt, säger Kast.
Den första är sparsity: "Folk som gör filtreringen är glesa jämfört med mängd innehåll som behöver filtreras," förklarar Kast. "Om det finns många fler Digg-historier än det finns människor som röstar in där blir det givetvis inte en bra täckning.
"För det andra är det tidiga raterproblemet, där något just har lämnats in och du har inte mycket röstinformation för filtreringsändamål."
Tredje är vad Kast hänvisar till som "det gråa fårproblemet" - där det som är mest populärt går på hemsidan "och så saker som inte är särskilt populära, men att en liten grupp människor är galen på - hur tjänar du det liten grupp människor? "
Och slutligen, säger Kast, det finns användarens motstånd. "Digg har denna fascinerande historia där varje gång ett stort antal människor blir otroligt entusiastiska om en sak och det hamnar på vår hemsida och slår mål vi måste representera små grupper eller ha olika innehåll men det är bara ett grundläggande problem - När du är beroende av människor är det populärvilja. "