Moderna datoralgoritmer har kunnat "se" världen för en tid. Googles Chauffeur-programvara i sina självkörande bilar använder en 64-stråls laser för att kartlägga den omgivande terrängen och kombinera data med ett bibliotek med högupplösta kartor.

Roomba robot dammsugare använder IR och mekaniska sensorer för att undvika hinder i ditt hem; Microsofts Kinect-sensor använder ansiktsigenkänning för att automatiskt identifiera användare och aktivera sina profiler.

Men få visuella genkänningsalgoritmer kan aktivt lära sig om världen runt dem eller förstå relationerna mellan människor, platser och objekt.

Hur, till exempel, vet en dator vad en bil ser ut? Vi vet bara. Vi har byggt upp den kunskapen över tid genom att observera massor av bilar. Därmed vet vi att inte alla bilar ser lika ut. Vi vet att de kommer i olika former, storlekar och färger. Men vi kan allmänt känna igen en bil eftersom de har konsekventa och definierbara element - hjul, däck, en motor, vindrutor och vingspeglar, de reser på vägar och så vidare.

NEIL är ett enkelt datorprogram

Kan en dator lära sig all denna information på samma sätt? Ett lagarbete på Carnegie Mellon University i USA tror det. Det har utvecklat ett system som heter NEIL (Never Ending Image Learner), ett ambitiöst datorprogram som kan dechiffrera innehållet i foton och göra visuella kontakter mellan dem utan att bli undervisad. Precis som en människa skulle.

Enligt Xinlei Chen, en PHd-student som arbetar med NEIL, använder programvaran "semi-supervised inlärningsalgoritm som gemensamt upptäcker sunt förnuftsrelationer - till exempel" Corolla är en slags / liknar bil "," Wheel är en del av Car '- och etiketterar instanser av de givna visuella kategorierna ... Inmatningen är en stor samling bilder och den önskade utsignalen extraherar betydande eller intressanta mönster i visuell data - t ex bil upptäcks ofta i racerbanor. Dessa mönster hjälper oss att extrahera sunt förnuftsrelationer ."

Som den "aldrig slutar" delen av sitt namn föreslår, drivs NEIL kontinuerligt, och det fungerar genom att plundra Google Image Search-data för att samla ett bibliotek med objekt, scener och attribut. Den nuvarande uppsättningen information omfattar allt från flygplanbärare till zebror, basilikor till sjukhus, prickiga texturer till distinkt tartanmönster.

Från och med en bild på en stationär dator refererar NEIL till existerande bilder av datorer i databasen plus alla bilder som har angivits som tillhörande en stationär dator, såsom bildskärmar, tangentbord och möss.

NEIL kan lära sig sambandet mellan bilder

Följaktligen kan den lära sig att "Bildskärmar är en del av stationär dator" och "Tangentbordet är en del av stationär dator". Genom att analysera bilder på detta sätt kan NEIL bilda fyra olika typer av visuellt förhållande - objekt mot objekt ("BMW 320 är ett slags bil"), objekt att attributa ("Får är / har vit), scen mot objekt ("Bus finns i Bus depot") och scen att attribut ("Ocean är blå"). Du kan se de pågående resultaten av NEILs bildkatalogeringsframsteg på projektets hemsida.

Under de första två och en halv månaderna av sitt operativa liv, lät teamet på Carnegie Mellon NEIL lossa på 200 bearbetningskärnor. Sedan den 15 juli har den analyserat över fem miljoner bilder, märkt 500 000 bilder och bildat över 3000 sunt förnuftsrelationer. Dessa inkluderar följande korrekta antaganden: "Agra kan ha Taj_mahal", "Mudflat kan ha Seagull", "Sydney kan vara / kan ha Sunny_weather" och "Tent_indoor kan / kan ha Cone_shape".

Naturligtvis är NEILs tillvägagångssätt inte perfekt och det kan ofta göra felaktiga uttalanden beroende på källabildernas karaktär. Dessa har inkluderat: "Väderkvarn kan ha helikopter" (en vindmills seglar ser ut som rotorblad ...) och "Radiator kan vara en del av Accordion" (den accentuerade bälgen av ett dragspel kan tyckas likna den korrugerade designen av en typisk radiator.) Således är bildlärningsprocessen inte helt autonom. Det finns en grad av korrigerande mänsklig moderering inblandad för att rena de semantiska data.

Med det sagt är NEILs framgångsfall överraskande bra. I ett slumpmässigt prov ansågs 79 procent av förhållandena som bildades av NEIL vara korrekt, medan 98 procent av de visuella data som extraherades från Google-bilder också märktes korrekt.

Vad är meningen med allt? Det finns redan etablerade visuella databaser som ImageNet, som har över 14 miljoner bilder. Medan Caltechs Visipedia-projekt stilar sig själv är en crowdsourced "visual encyclopaedia".

Enligt Chen är NEIL ett "försök att utveckla världens största visuella strukturerad kunskapsbas med minsta mänskliga märkningsinsats - en som återspeglar de faktiska innehållen i bilderna på internet, och det skulle vara användbart för många datasyn och AI-ansträngningar."

NEIL-projektet förenar det nuvarande NELL-initiativet (Never Ending Language Learner) vid Carnegie Mellon. Detta försöker utveckla ett system som lär sig att "läsa webben" och att extrahera en uppsättning sanna, strukturerade fakta från de sidor som den analyserar.

NELL har funnits sedan 2010 och har samlat en kunskapsbas av 2.069.313 saker som den anser vara sanna. Dessa inkluderar "scrap_booking är bild av bildkonst" och "Gujarat är en stat eller provins som ligger i landet Indien".

Skrotbokning trivia och bildelar kanske inte låter som tekniska genombrott, men dessa framsteg inom datasyn och maskininlärning (om än mänsklig assistans) kommer att bidra till att undersöka smarta sökalgoritmer och framtida konstgjorda intelligenser.

Nu varför inte läsa: Är artificiell intelligens en vara?