Utses Google och Alexa för mindre språk?
NyheterHuvudbild: Astana, huvudstaden i Kazakstan. Ungefär hälften av landets 18 miljoner människor talar kazakiska. Kreditera: Alex J. Butler via Flickr, CC BY 2.0
Tänk om engelska inte var det universella språket på internet. Vad händer om du inte kan läsa den här artikeln online, förutom som en version som saknas av Google Translate? Och vad om Alexa inte förstod något du frågade det? Tänk nu att du kom i kontakt med Google och Amazon och bad dem att lägga till engelska till sina system ... och de sa "Nej tack - gör det själv".
Pengar pratar
Kazakstan är ett språk som talas av ungefär hälften av de 18 miljoner människorna i Kazakstan, ett stort land i Centralasien som gränsar både Ryssland och Kina - och även om det är enormt, är det relativt sparsamt att det kan bli förbisedt av tekniska jättar som Google.
”Som en kommersiell marknad är Kazakstan inte särskilt intressant för Google eftersom det inte genererar rätt mängd pengar ut ur reklam,” säger Rauan Kenzhekhanuly, grundare av den ideella WikiBilim Public Foundation, som i 2011 inrättade en kazakisk språkversion av Wikipedia, en stor första handling av översättning som skulle visa sig kritisk.
Rauan Kenzhekhanuly, grundare av WikiBilim Public Foundation. Kredit: Jamie Carter
(Bild: © Jamie Carter)Han har sedan dess varit drivkraften bakom ett försök att öka kazakanska i verktyg för onlineverktyg för översättning. ”Det är mycket viktigt för små språk att kunna ge tillgång till vilken webbplats som helst, och att översätta webbplatser och artiklar på ditt språk,” han säger, innan man understryker hur änemisk engelska och ryska är som ett skrivspråk i Kazakstan. ”På universitetet, även om du studerar kazakisk litteratur och språk, är du skyldig att hitta läroböcker på ryska eller engelska.”
Googles ambivalens mot kulturer på marginalerna är ganska standardbeteende, och kanske förståeligt. För några år sedan bad Færöarna Google om att inkludera Färöarna - hemma till bara 30 000 personer - på Google Street View, sedan använde får för att få det att hända.
Förlorat i översättningen
För att vara rättvist mot Kazakstan har det tagits några drastiska steg för att möta världen halvvägs. Efter att ha fått 7000 artiklar i Kazakstan på Wikipedia, spekade Kenzhekhanuly ett projekt för att öka det till 210.000 för att behaga Google.
”Vi började kommunicera med Google, men de förklarade att de inte gör något för att få mindre språk till Google Translate-tjänsten,” han säger. ”De sa att det är upp till dig - du måste ge oss massor av text - och de bad om 10 000 artiklar.”
Efter att ha överskridit den siffran för spegelför translations från kazakh till engelska (och tillbaka) tack vare 350 volontärers arbete i Kazakstan kunde Googles system bygga sina första översättningar. Kazak är nu tillgänglig som ett enkelt text-till-text-system på Google Translate, även om det inte kommer att översätta hela webbplatser, talat kasakhiska eller översätt via en kamera med hjälp av Google Translate-appen (som oftast används för att översätta menyer).
Så enkelt som ABC
Det finns ytterligare ett drastiskt steg som Kazakstan har tagit för att göra sitt språk enklare att integrera i den bredare världen: det ändrar hela sitt alfabet. Arbetet med antagandet att det ryska cyrilliska alfabetet brukade skriva Kazakse är både en bakrus från regimen av Sovjetunionen, och off-putting till engelsktalande besökare, år 2017 meddelade regeringen att de skulle transitera till att använda det romerska alfabetet helt 2025.
Kazakstans president Nursultan Nazarbayev meddelade förra året att kazakiska skulle byta till romerska alfabetet. Kredit: Jamie Carter
(Bild: © Jamie Carter)Den används redan i skolan, vilket inte är någon överraskning sedan dekretet läste: “För våra barns framtid ska vi fatta detta beslut och skapa det som ett villkor för tillträde för vår bredare globala integration.”
Ryska revolutionen
Trots Kazakstans språkliga medgivanden till den tekniska världen kommer framsteg i maskinöversättning att minska översättningsfrågor inom den närmaste framtiden. Att ha varit en del av Sovjetunionen under 55 år fram till 1991, vilket Kazakstan delvis kämpar mot i språkliga termer är Rysslands fortsatta inhemska dominans. vilket är ironiskt, för bara i sommar var ett brittiskt företag den första som knäckte den historiskt knepiga ryska-till-engelska översättningen.
”På ryska kan ett ord ha 12 variationer i betydelse, med inflexioner som används istället för ordorder, men på engelska är det bara tre eller fyra och en ordordning,” säger Mihai Vlad, VP för Machine Translation på UK-baserade SDL. ”Så generisk maskin översättningsteknik räcker inte för ett språk som ryska; du behöver en motor som adresserar de specifika sätten att formulera.”
Astana har några av världens mest moderna arkitektur, men kämpar ändå för att locka intresse för Google och andra tech-jättar. Kredit: Jamie Carter
(Bild: © Jamie Carter)Lösningen visade sig vara Neural Machine Translation (NMT), som också har varit ansvarig för senaste framsteg inom bildigenkänning och taligenkänning. ”Vad är annorlunda är hur ord omvandlas till nummer,” förklarar Vlad. ”Varje ord blir kodat till en rad olika tal, och dessa tal går igenom ett neuralt nätverk som använder matrixmultiplicering, och du hamnar med ordinbäddning som i huvudsak fångar innebörden av ordet eller meningen.”
Latinska språk har visat sig mycket enklare att kartlägga, men tyska, ryska och de flesta asiatiska språken har krävt NMT - väsentligen specialgjorda språkkartsmotorer - att bli läsbara av maskiner.
Vad sägs om röstigenkänning?
Om du har en Kazaksspråk Wikipedia och att få Kazakz på Google Translate hjälper det att hålla det lilla språket levande och blomstrande, hur är det med Alexa, Google Assistant och Siri? Hittills har den globala tillväxten i taligenkänning varit i röstassistent hårdvara, inte programvara, med alla stora spelare begränsade på vilka språk de hanterar:
alexa: Engelska, tyska och japanska.
Google Assistant: Engelska, franska, tyska, italienska, japanska och spanska
Siri: Engelska, Arabiska, Kinesiska, Danska, Holländska, Finska, Franska, Tyska, Hebreiska, Italienska, Japanska, Koreanska, Malay, Norska, Portugisiska, Ryska, Spanska, Svenska, Thailändska och Turkiska
”Vi skulle gärna vara med i den här tekniken, och just nu arbetar vi med att föra kazakh till tal-till-tal-systemet,” säger Kenzhekhanuly. Det här är inte bara så att människor i Kazakstan kan njuta av nyhetsnonsen som att få ett eko för att ställa in kökstimmar och fråga om vädret - insatsen är mycket högre. Det handlar om att få tillgång till teknikens framtid.
”Om du har ditt språk inkluderat i tal-till-tal så får du tillgång till plattformar som går åt smartphones, men även smarta bilar.”
Rauan Kenzhekhanuly
”Om du har ditt språk inkluderat i tal-till-tal så får du tillgång till plattformar som går åt smartphones, men även smarta bilar,” säger Kenzhekhanuly. Till exempel kommer framtidens förare utan bil säkert att kommunicera med sina "förare", främst med hjälp av röst, men om det lämnas upp till biltillverkarna och teknikbolagen kommer bara världens riktigt stora språk - Mandarin Kinesiska, Engelska och Spanska - att vara tillgodoses.
Tillbaka i Kazakstan fortsätter arbetet med att fuska det kazakiska språket i internetets tyngd - och särskilt Google Translate - eftersom Kenzhekhanuly är övertygad om sin viktiga betydelse i modern tid.
”Det är inte perfekt, men skönheten i tekniken är att den ständigt förbättras,” han säger. ”Som en del av tekniken finns det ingen annan som närmar sig den mänskliga hjärnan, och det är därför viktigt för Kazakas att vara en del av det - dessa plattformar är inte bara informationsplattformar utan också språkliga plattformar.”
Techradar s Nästa Up-serien kommer till dig i anslutning till ära