Konstgjorda intelligensforskare gör framsteg mot sina mål att träna AI-system för att förstå tal från ljudingången ensam, precis som människor gör.

För närvarande kan majoriteten av AI bara känna igen tal genom att först översätta det till text. Många framsteg har gjorts när det gäller att sänka ordfelprocenter och öka antalet språkstöd.

Om AI förstår tal genom enbart ljudingång är det dock ett stort hopp från det här steget, så forskare vid MIT: s datavetenskap och artificiella intelligenslaboratorium har tagit ett steg mot det genom att kartlägga tal till bilder snarare än text.

AI hör dig

Det låter inte så mycket på ytan, men frasen "en bild är värt tusen ord" gör det klart hur stor en inverkan den kan ha.

På konferensen Neural Information Processing Systems visade forskarna sin metod i en presentation baserad på ett papper som de har skrivit.

Tanken bakom deras forskning är att om flera ord kan grupperas under en enda relaterad bild ska det vara möjligt för AI att göra en “troligt” översättning utan behov av noggrann utbildning.

För att skapa en träningsdataset för AI-systemen, använde forskarna Places205 dataset som har över 2,5 miljoner bilder uppdelade i 205 olika ämnen. Forskarna betalade grupper av människor för att beskriva vad de såg på fyra slumpmässiga bilder, var och en från datasetet genom ljudinspelningar. De har lyckats samla över 120 000 bildtexter från 1 163 personer.

AI har sedan utbildats för att länka ord i varje bildtext till relevanta bilder, och poängterar likheten hos varje parning för att välja den mest exakta översättningen. Om en bildtext är relevant för bilden ska den vara hög, om inte den borde vara låg.

Vid testningen matades nätverket ljudinspelningar som beskriver en bild som sparades i sin databas och blev ombedd att välja tio bilder som bäst matchade ljudtexten. Tyvärr, av de tio bilderna valda, skulle den rätta bara vara där 31% av tiden.

Detta är en besvikelse för forskarna, eftersom det är ett ganska grundläggande sätt att träna AI för att känna igen ord utan någon text- eller språktata för att hjälpa till att förstå.

Det menas dock att med förbättring kan det här träningssättet hjälpa taligenkänningsprogrammet att anpassa sig snabbare till olika språk och ge ett nytt sätt att undervisa det att översätta. Vi kan se hur bildigenkänning fungerar med att lära nya språk på den mänskliga hjärnan redan, med språkinlärningssoftware som den som erbjuds av Rosetta Stone.

Medförfattare av papperet som beskriver forskningen, Jim Glass, sa “Målet med detta arbete är att försöka få maskinen att lära sig språk mer som hur människor gör det.”

Att uppnå denna typ av oövervakad inlärning kan göra utbildning AI mycket mer kostnadseffektiv och tidseffektiv samt mer användbar för samhället i stort. Det är uppenbarligen att många fler framsteg måste hända innan det är möjligt.

  • Apple kommer att börja publicera sin AI-forskning för att förbättra Siri