Captcha om du kan hur du har tränat AI i flera år utan att förstå det / Nyheter

Grattis är i ordning. Du, ja du, kära läsare, har varit en del av något otroligt. Tack vare ditt hårda arbete har miljontals böcker som innehåller ganska mycket summan av mänsklig kunskap digitaliserats och sparat sina texter för kommande generationer. Allt på grund av dig.

Nej seriöst.

Du vet hur ibland du får en a “Captcha” när du fyller i ett formulär på internet för att bevisa att du är helt mänsklig? Bakom kulisserna i ett av de mest populära Captcha-systemen - Googles Recaptcha - har dina humanoida klick hjälpt till att räkna ut saker som traditionell databehandling bara inte klarar av, och i processen har du hjälpt till att träna Googles AI för att vara ännu smartare.

Och du trodde att du bara loggade in på en eller annan webbplats.

Origins

Recaptcha (eller “reCATCHA” om du föredrar) började som ett samarbete av ett antal datavetenskapare vid Carnegie Mellon University i Pittsburgh, som första gången släpptes 2007 - och det blev snabbt snaffled upp av Google 2009. Förutbestämmelsen var som beskrivits ovan: genom att gifta sig med användare som måste bevisa att de är mänskliga för data som behöver transkribera, båda sidorna får något ut av det.

Så istället för att digitalisera böcker genom att ha en person utföra den mycket tråkiga uppgiften att skriva eller kolla en hel bok manuellt kan i stället miljoner människor omedvetet samarbeta för att uppnå samma mål. Kom ihåg hur det alltid var två ord du var tvungen att skriva in? Tänkbart var bara en “verklig” testet och det andra var ett nytt ord som ännu inte transkriberades - men som användaren skulle du inte veta vilket var vilket, så du måste försöka göra både exakt.

Google Böcker-appen på Android.

Recaptcha kan även kontrollera sitt eget arbete. Genom att visa samma ord för flera användare kan det automatiskt verifiera att ett ord har transkriberats korrekt genom att jämföra flera försök från flera användare över hela världen.

Otroligt tack vare Recaptcha-rutorna som visas på tusentals stora webbplatser och mottar tiotals miljoner kompletteringar per dag, hade Recaptcha avslutat digitaliseringen av hela Google Books-arkivet - liksom 13 miljoner artiklar från New York Times back-catalog dating back till 1851.

Så vad gjorde Google sedan, utan att några böcker lämnades för att digitalisera? I det som kanske var en lycklig slump sammanföll detta med tillväxten av artificiell intelligens och maskininlärning.

Utbildning montage

Under 2012 började Google inte bara ord, men bilder av bilder från Google Street View - vilket gör att användarna transkriberar dörrnummer och annan skyltning. Och 2014 blev systemet allt om att träna AI.

Viktigt är hur maskininlärning fungerar, att du ger maskinen en massa data som redan är sorterad - säg en massa bilder av katter som du taggat som katter, och sedan använder den denna information för att bygga ett neuralt nätverk som möjliggör att välja katterna ur andra bilder. Ju fler bilder på katter du matar det desto mer exakt blir AI att plocka ut katter från andra bilder.

En katt. Bara om du inte var säker.

Google har otaliga skäl att vilja träna AI för att känna igen objekt i bilder: bättre resultat i Google Bildsökning, mer exakta Google Maps-resultat och göra det möjligt för dig att söka i ditt Google Photos-bibliotek för alla foton du har tagit med ett visst objekt eller plats . Åh, och det lilla med att se till att din förare utan bil träffar någonting. Du vet när Recaptcha ber dig att identifiera gatubetecken? I grund och botten spelar du en mycket liten roll för att styra en bil utan bil någonstans, någon gång i framtiden.

Så det är väldigt bekvämt då Google har till sitt förfogande hundratals miljoner internetanvändare att arbeta för: Genom att använda Recaptcha för att hantera dessa problem kan Google använda vårt behov för att bevisa att vi är mänskliga för att tvinga oss att använda vår mänskliga intuitioner för att bygga sin databas.

Googles Waymo förare utan bilsystem.

Därför ger Recaptcha istället för att bara slänga upp text, vilket ger användarna fler bildrelaterade uppgifter: “Klicka på alla bilder av katter”, “Klicka på alla rutor på rutnätet som lägger över en bild som innehåller en katt”, och så vidare. För tusentals olika objekt.

Det här är en särskilt användbar tillgång till Google, eftersom det konkurrerar med andra internetjättar om att växa sin datainsamling och algoritmer för maskininlärning: Ju mer data den kan analysera desto bättre resultat kommer att vara - att ge nuvarande och framtida produkter en konkurrensfördel.

Använda AI för att slå AI

Amusingly, det finns bara ett problem med att använda captchas för att träna maskininlärningsalgoritmer. Vad är det som ska stoppa, till exempel, människor som vill komma runt captchas från att använda maskininlärning mot captcha?

Förra året byggde utvecklaren Francis Kim ett bevis på begreppsmetoder för att slå Recaptcha genom att använda Googles maskininlärningsförmåga mot den. På bara 40 linjer med Javascript kunde han bygga ett system som använder det rivaliserande Clarifai-bildigenkännings API för att titta på bilderna Googles Recaptcha kastar upp och identifiera objekten som captcha kräver. Så om Recaptcha kräver att användaren väljer bilder av butikskort för att bevisa sin mänsklighet, kan Clarifai välja ut dem istället.

Tänkbart skulle det också vara möjligt med Googles egen teknik. Eftersom Google vill sälja sin smarta teknik till andra företag öppnar den TensorFlow upp till utvecklare via ett API själv. Det innebär att du kan tänka dig att använda TensorFlow för att lura Captcha som tränar TensorFlow. Detta skulle inte fungera 100% av tiden - men när en AI är tillräckligt välutbildad borde den kunna göra tricket i ett stort antal fall.

Det som är klart från Recaptcha är inte bara att det är en genial idé, men också att tack vare vårt hårda arbete blir allt svårare att skilja oss människor från maskinerna.

Techradar s AI-veckan kommer till dig i anslutning till ära.