Bildkredit: Dirac Research

Surround ljud är historia. Det kan ha betraktats som banbrytande för ett årtionde sedan, men med de flesta musik och video som nu såg på mobiltelefoner är kampen på för ljud ... som rör sig.

Konstruerad kring en 360 graders sfär är den så kallade immersiva eller rumsliga ljudtekniken utformad av Dirac Research, DTS, Dolby och THX, främst för virtuella verklighetstroppar (VR), men som kan ignorera världens 2,5 miljarder smartphones? Loppet är på för att producera det definitiva formatet för 3D-ljud.

Vad är nedsänkt ljud?

Designad främst för VR, men även för mobila enheter, har nedsänkt ljud tre delar till det.

Den första är kanaler; hemmabioer använder ett 5.1-system för att hantera främre, vänstra, högra, vänstra bakre, höger bak och en subwoofer, och nedslående ljud baseras ursprungligen på samma ram. Den enda skillnaden är att det nu kan mimicera en 11,1 eller högre array.

Fraunhofer soundlab för immersiv kanalreproduktion | Kredit: Fraunhofer IIS

Den andra delen av nedsänkt ljud är ambisonics.

“Ambisoniska signaler är scenbaserade ljudelement som inte beskriver enskilda källor (som kanalbaserade eller objektbaserade format), utan snarare ljudfältet som helhet från en punkt i rymden,” säger Julien Robilliard, produktchef hos Fraunhofer IIS, som uppfann mp3- och AAC-koderna.

Immersivt ljud kan produceras med hjälp av huvudrelaterad överföringsfunktion (HRTF), där binaurala stereomikrofoner placeras i öronen på en dummy och externa ljud inspelade för att skapa en "head-print" -profil (i framtiden kan vi alla få ljud anpassat till formen av vårt huvud och ansikte).

Binaural ljud är dock bara smart stereo och bäst för hörlurar. För äkta 360-graders "ambisoniska" ljudinspelningar anpassade till högtalare, tar mikrofon upp ljud från fyra olika positioner.

Den tredje delen av nedsänkt ljud är ljudobjekt.

Ett ljudobjekt är ett monospår som åtföljs av metadata som specificerar den exakta positionen för ljudet. “Med VR vill du ha ljuden som fördjupar dig i scenen som kan reproduceras från att komma från någon riktning,” säger Robilliard.

Varför är nedsänkt ljud viktigt?

“Ljudet i någon uppslukande innehållserfarenhet spelar en lika viktig - och ofta förbises roll - som visualerna för att transportera betraktaren till handlingen, säger Canaan Rubin, produktions- och innehållsdirektör hos VR och AR-produktionsbolaget Jaunt.

Den använder ambisoniska mikrofoner monterade på omgivande set för att autentiskt fånga ljud i rundan. "Vid uppspelning av vårt 360-innehåll erbjuder ljudtekniker som Dolby Atmos för VR, DTS Hörlurar: X och den nyligen presenterade nya versionen av Dirac VR alla exklusiva ljudformat som förbättras av HRTFs (huvudrelaterade överföringsfunktioner) för att ge ett verkligt 3D-ljudupplevelse, säger Rubin.

Varför är HRTF så viktigt?

"Utan det kan hörlursbaserat ljud inte korrekt ge ljudkällor som kommer från toppen, botten, framsidan eller baksidan av motivet, vilket gör att din erfarenhet är begränsad till vänster-högerplanen", säger Rubin. "Detta kan uppstå på grund av närheten till hörlurar högtalare i ditt trumhinna, vilket negerar de fysiska och psykiska effekterna av hörsel ljud i ett rum."

HRTF är avgörande för att producera immersivt ljud | Kredit: Dirac Research

Det finns emellertid olika olika viktiga återgivnings- och bearbetningsteknologier för att ta inslagen ljud till enheter - och var och en har sina egna styrkor.

Dirac VR förklaras

Även om de flesta av oss är bekanta med Dolby, DTS och THX är det svenska ljudföretaget Dirac Research ett relativt litet men snabbt växande företag.

Färsk från att sätta sin teknik inuti Xiaomos Mi AI smart högtalare i början av 2018, använde Dirac den senaste MWC för att ge TechRadar en demo av andra generationens Dirac VR-teknik för hörlurar.

Den har ljud som kommer från alla håll i en sfär, men dess viktigaste funktion är att den rör sig när du flyttar huvudet. Det är avgörande för att om du bär ett VR-headset behöver du ljudet för att förbli på samma ställe, vilket betyder att allt i en mixande ställning i realtid.

Detta är dynamisk positionering, vilket skapar en 360-graders ljudsfär där ljudet rör sig fritt i alla riktningar. Det är oerhört imponerande.

Det kan till exempel användas för att skapa ett ljudstadium där bandet du lyssnar på verkar vara framför dig. Men när du vrider huvudet till höger, blir ditt vänstra öra starkare. Om du lutar ditt huvud uppåt, rör ljudet nedåt i mixen. Det kan också användas för att efterlikna erfarenheten av att vara i en biograf.

Den andra genen Dirac VR erbjuder dynamisk positionering | Kredit: Dirac Research

“Genom att fixa ljudkällor i horisontalplanet kan virtuella miljöer som biografer återskapas med noggrannhet - eftersom både slutanvändaren och ljudkällorna förblir statiska,” säger Lars Isaksson, Dirac Research General Manager & Business Director of AR / VR.

Isaksson fortsätter: “Vår andra generationens Dirac VR placerar dock varje användare i mitten av en "ljudsfär", vilket gör det möjligt för användare att uppleva till exempel ljudet av vindpiska som det virvlar runt ett huvud eller ett flygplan som anländer och avgår på en asfalten.”

Men mest kritiskt har Dirac VR en liten CPU och minnesfotavtryck, så det fungerar bra i små enheter som telefoner.

"Medan Diracs teknik är mindre känd, lovar den mycket effektiv CPU-prestanda med tanke på HRTF-bearbetnings- och efterklangsmotorn den innehåller", säger Rubin.

Ljud för spelare

Lanserad vid MWC 2018, DTS-hörlurar: X 2.0 virtualiserar stereoljud och omvandlar det till ett surroundljud.

Det är designat med spelare i åtanke. Den nya versionen innehåller närhetskoder och stöd för kanal-, scen- och objektbaserat ljud.

DTS har också DTS: X Ultra, som lägger till stöd för ambisonics och ljudobjekt och kan lyssnas på över högtalare och genom hörlurar. Det riktar sig till VR och AR spel.

"Vad är unikt med DTS-hörlurar: X 2.0 är hur vi har skrivit algoritmerna, anpassat HRTF och använt vårt stora bibliotek med tuningkurvor från över 400 par hörlurar,” säger Rachel Cruz, direktör för produktmarknadsföring för mobil och VR / AR på Xperi, som äger varumärket DTS. “De ger en konkurrensfördel eftersom det ibland är ljudljudet som berättar för dina ögon var du ska titta och ofta får du dem före en visuell cue.”

Det är också ett mycket anpassat ljudsteg. "DTS: X låter ljudet av enskilda objekt förstärkas manuellt om du har svårt att höra ett visst objekt, till exempel dialog, i förhållande till resten av ljudet, säger Rubin.

Dolby Atmos för VR, MPEG-H och Cingo

Även om det blir mycket press, är Dolby Atmos tekniskt svårt att klämma ner det eftersom Dolby inte gör tekniken inom den offentliga.

Även om den är placerad mer i förhållande till traditionellt surroundljud och bioljud, handlar Dolby Atmos för VR också om rumslig ljud. "Atmos erbjuder auralisering och spatialisering av upp till 128 föremål samtidigt," förklarar Rubin.

Plantronics gör hörlurarna kompatibla med Dolby Atmos | Kredit: Plantronics

Tysklands Fraunhofer IIS, känd för mp3, har nu en behållare för hantering av nedsänkt ljud; MPEG-H-ljud. Även om "H" inte står för något i synnerhet, tänk på det som meningen höjd.

“Denna codec stöder leverans av kanaler, ljudobjekt och ambisonics till TV-apparater, soundbars, samt mobila och VR-enheter,” säger Julien Robilliard, produktchef hos Fraunhofer IIS.

MPEG-H har använts i Sydkorea som en del av markbundna 4K-sändningar sedan maj 2017, och Samsung TV-apparater som säljs där kan dekodera det. THX och Qualcomm dämpar bara sin THX rumsliga ljudplattform med hjälp av MPEG-H.

Cingo, en efterbehandlingsteknik, levererar en autentisk och realistisk återgivning av 3D-ljudplatsen över hörlurar | Kredit: Fraunhofer IIS

Så vad händer när en MPEG-H bitström kommer i ett par hörlurar? “Det är där Cingo kommer in,” säger Robilliard. “Det är en binaural renderer som trickar i hjärnan att tänka att ljuden kommer från utsidan av hörlurarna.“

Men medan Cingo stöder rendering av helt nedsänkt 3D-ljudinnehåll med format som lägger till en höjddimension, är det MPEG-H som har den största framtiden. “MPEG-H är vårt kärnverksamhet, och det är codec som tillåter alla dessa tekniker - Dirac, Atmos, Cingo och DTS - att existera,” säger Robilliard.

MPEG-H är för närvarande den enda codec som anges av VR Industry Forum riktlinjer, men det är inte bara för VR; det kan ta en mono, stereo, binaural, 5.1, 11.1, ända upp till en dynamisk nedsänkt ljudsignal till en kompatibel enhet.

Trots att de antagligen inte kommer att gå in i vanliga frågor tills VR-headset börjar sälja i större antal, är det bara hälften av historien, med MPEG-H som är avsedda att spela en kritisk roll. Säger Robilliard: “Om du inte får signalerna i ditt hem, är det ingen anledning att göra magi hända.”

Denna artikel har uppdaterats efter några klargöranden från Fraunhofer IIS.

  • Nästa generations VR: det är våra händer på HTC Vive Pro recensionen