Datorer är mycket nära att förstå vad du säger, liksom en annan människa kunde, även om de ännu inte vet vad du pratar om.

"Taligenkänning ligger väldigt nära att nå paritet med människor under de närmaste tre åren", sa Xuedong Huang, Microsofts chefs talforskare, techradar pro.

"Om vi ​​kan uppnå detta mål kommer det att vara ett viktigt landmärke för civilisationen. Språk är bara något vi människor förstår och mästar. I det ögonblick en dator kan skriva över din konversation i telefon nästan lika exakt som människor är ett viktigt landmärke för AI." Och för den typiska konversationen via telefon tror han att vi kommer dit om tre år - åtminstone när det gäller att erkänna vad som sägs.

"Transkription skiljer sig från förståelse, förståelse är en annan historia", varnar han. "För att förstå budskapet, det subtila av vad som sägs - det är långt ifrån. För att förstå avsikten och meningen, har vi fortfarande en lång väg att gå."

Xuedong Huang visar på några av designen bakom Microsofts öppna källkod med djupt lärande verktygsverktyg

Konstant framsteg

Han har arbetat med taligenkänning i över 30 år, och varje år säger han att han har sett konsekventa förbättringar. Referensforskarna använder för att mäta noggrannhet gör en transkription av två personer som pratar i telefon, och varje år har han sett att felet sjunker 20% från föregående år.

Tack vare djupt lärande gör de bästa systemen, som Cortana, nu bara dubbelt så många fel som människor gör. "Transkriptionsfelet är ca 8% nu, det är ungefär dubbelt så högt som mänskligt fel, vilket är cirka 4%. Om vi ​​kan behålla 25% reduktion varje år - bra, gör du matte! Jag hoppas att de senaste 4% är inte för hårt, och under de kommande tre åren kan vi uppnå detta. "

De senaste framstegen inom taligenkänning ligger till grund för en relativt ny maskininlärningsteknik, djup inlärning.

"Maskininlärning som helhet är viktigt, men djupt lärande har varit avgörande för dessa förbättringar," förklarar Huang. Nu använder Microsoft Computational Network Toolkit (CNTK) som används för att bygga system som Cortanas taligenkänning tillgänglig, gratis, som öppen källkod på GitHub.

"Vi tror att det arbete vi gör internt kan gynna hela samhället. Om du har bättre verktyg och bättre recept kommer bättre rätter att förberedas. Vi tror att verktygen vi delar kan påskynda utvecklingen av AI."

CNTK har tidigare varit tillgängligt för akademiska forskare, för icke-kommersiella projekt via Codeplex-webbplatsen - nu kan alla använda den för att bygga kommersiella system. "Vi gjorde det på ett lugnt sätt för att få feedback," säger han. "Nu försöker vi bredda publiken. Det här är en av våra bäst bevarade hemligheter. Vi går framåt och gör det öppet."