要想在VR中獲得更好的沉浸感,五感的還原極其重要,視覺還原是其中最為成熟的一部分,而音頻——全景聲,隨著技術(shù)的發(fā)展,也慢慢在VR內(nèi)容中應(yīng)用起來。
縱觀全球聲音定位技術(shù),主要可以分 3 種:聲道為本 (Channel Based)、面向?qū)ο舐曇?(Object Based)及場景聲音(Scene Based) 。值得留意的是,各種技術(shù)都可以分為錄音、播放系統(tǒng)和輸出格式三個部分。以下的內(nèi)容主要基于輸出格式,但也會略提各種錄音、播放系統(tǒng)的利弊。
三大定位方式
1. 聲道為本 (Channel Based) 傳統(tǒng)聲音定位技術(shù)都是以聲道為本 (Channel Based) 的技術(shù),意思是指所有輸出是根據(jù)系統(tǒng)的聲道數(shù)目來制作。例如立體聲的音樂就有 2 個聲道,5.1 環(huán)繞聲的電影就有 6 個聲道。但這種技術(shù)其實即使在環(huán)繞聲中都不理想。原因是不同的系統(tǒng)設(shè)計或擺放將會影響到定位效果,而且難以在不同系統(tǒng)中轉(zhuǎn)換,例如 5.1 環(huán)繞聲的電影就不能夠準確地在 7.1 系統(tǒng)中播放。因此極少在 3D 聲效上應(yīng)用。當然,嚴格來說,所有播放系統(tǒng)在輸出最終都是聲道為本,只不過輸出前的文件格式和制作方法會有分別。
雖然聲道為本的技術(shù)在 3D 聲效不常見,但基于聲道為本的錄音技術(shù)的悠久歷史,發(fā)展完善,因此即使使用其他技術(shù),很多時都會借用聲道為本的錄音技術(shù)制作,例如在接下來介紹的面向?qū)ο舐曇?(Object Based) 技術(shù)就常常會用上傳統(tǒng)單聲道及雙聲道錄音技術(shù)。 2. 面向?qū)ο舐曇?(Object Based) 近年為了改善不同播放系統(tǒng)的問題,研究人員開始思考如何用一個輸出格式去適應(yīng)所有系統(tǒng)。其中較流行的方法是用面向?qū)ο舐曇?(Object Based),相信很多人都在部份戲院或電影的片尾中見到杜比全景聲 (Dolby Atmos) 的標志,這是其中一種較常用的面向?qū)ο蟾袷健C嫦驅(qū)ο笫侵嘎曇舳ㄎ灰月曉?(所謂對象) 為本,輸出并不基于聲道數(shù)目,而是基于聲源數(shù)目。
簡單而言,每一個「對象」會輸出兩樣信息,它的聲音,和它在 3D 空間中的位置。在播放時,播放器會根據(jù)對象信息,以及影音系統(tǒng)的設(shè)定去分配各聲道的輸出,從而準確定位。因此這技術(shù)除了可以用同一輸出檔案做到跨系統(tǒng)播放,亦可以做出超越水平面的 3D 定位。常見的對應(yīng)輸出系統(tǒng)為 VBAP (Vector Base Amplitude Panning),基本上是傳統(tǒng) 5.1 或 7.1 環(huán)繞聲加上不同高度的喇叭(有關(guān)各種輸出系統(tǒng)之后會再介紹),但亦可以在傳統(tǒng) 5.1 或 7.1 環(huán)繞聲系統(tǒng),甚至雙聲道系統(tǒng)播放。
優(yōu)點: 聲音定位一般較凖確,而聲音質(zhì)素亦通常比較好
缺點: 輸出檔案的體積大。聲音來源集中,欠缺現(xiàn)場感
3. 場景聲音 (Scene Based) 除了以聲源為本,另一種常見的方法是以場景為本。場景為本的意思是指,我們嘗試記錄在空間中一個點上接收到的所有聲音。你可以想象成是記錄一個人在某場景中所聽到的所有聲音。唯一的分別是,人類的聽覺有方向性,例如來之前的聲音會比來自后面的聲音清晰,當聲音來自左邊左耳會感受到的音量會比較大等。但場景為本的錄音通常不會紀錄方向性的分別,無論聲音從那方面以來,都會清晰地記錄在錄音中。
其中最常見的錄音方法為Ambisonics (該名詞未有通用的翻譯)。它用幾組收音來全方位地記錄場景聲音。之所以要用幾組收音,是為了把場景中的聲音分為幾個軸,最常見是分為左右 (X)、前后 (Y) 和上下 (Z) 方便在后期制作中定位和加添指向性 (只用 3 個軸的Ambisonics 稱為 1st Order Ambisonics,可根據(jù)球諧函數(shù) (Spherical Harmonics) 去加添更多軸,提高到更高 Order,從而提升聲音定位解像度,一般制作用最高可以到 5th order,但 X Y Z 三軸是較常見也比較容易理解,有機會再另立文章講解 Ambisonics Orders)。大家可以想象,在播放該錄音時,如果沒有分左右前后上下的話,聲音根本不可能定位。 該技術(shù)最大的優(yōu)勢,是在于檔案體積,它最少只需要四條聲軌,X、Y 、 Z 和 W ( W 是一條無指向性全方位錄音— Omni Directional Recording),就可以重現(xiàn) 3D 聲效,比 5.1 環(huán)繞聲還少,因此此制式在360 影片及 VR 中很常見。而且因為他的錄音是全方位的,他可以清楚記錄所有在空間中漫射的聲音(Diffuse sound) ,也就是說,它可以記錄來自四方八面的回響 (Reverb),例如在教堂中說話,有時候會聽到回音,那些回音有時會從四方八面?zhèn)鱽恚?Ambisonics 就能夠準確地記錄那些回音。 Ambisonics 有自己對應(yīng)的播放系統(tǒng),其特色是所有喇叭的間距必須一致,平均地分布在一個虛擬球面。之所以要這樣安排,是因為在播放時,即使聲音內(nèi)原只有一方,理論上所有喇叭都會播放相對應(yīng)的場景聲音。概念上一般讀者可能較難理解,但概括而言,在播放任何聲音時所有喇叭都會運作,來重現(xiàn)錄音場景的音場。當然這播放系統(tǒng)在民用上是很不現(xiàn)實的,因為理想的播放系統(tǒng)需要很多喇叭,而且擺放位置要求極為精準,有時甚至要鉆穿地下來放置喇叭。因此,通常都會用耳筒來重現(xiàn)虛擬的 Ambisonics 播放系統(tǒng) (稱為 Binaural Audio技術(shù)),亦有不少軟件可以將 Ambisonics 轉(zhuǎn)換成其他系統(tǒng)格式包括環(huán)繞聲和立體聲。 優(yōu)點: 音質(zhì)代入感強,仿似在場景中。輸出檔案一般較細,4條聲道起。 缺點: 錄音質(zhì)素通常比較差,因為錄音器和聲源之間通常有一定距離。 錄音過程較復(fù)雜,和通常要利用特別器材,如 Ambisonics 。
位于英國的 Ambisonics 播放系統(tǒng)
Sennheiser 出品 Ambisonics( 1st OrderAmbisonics )
Eigenmike Ambisonics ( 4th OrderAmbisonics ) 比較各種聲音定位技術(shù)之優(yōu)劣
各種技術(shù)的應(yīng)用情況
聲道為本
如前文所言,傳統(tǒng)聲道為本的格式在 3D 聲效中的應(yīng)用比較少見。主要是因為他難以兼容不同的播放系統(tǒng)。當然目前有很多沒有配備3D聲效的電影,都繼續(xù)沿用聲道為本的技術(shù)。大部份的音樂所使用的雙聲道,亦可歸類為此技術(shù)。
面向?qū)ο舐曇?/p>
目前大部份的電影 3D 聲效多使用面向?qū)ο舐曇簟T蚴呛笃谥谱鞅容^方便,而且得到很多專業(yè)公司的支持,例如 Dolby、Auro、ProTools 等,表表者是杜比全景聲 (Dolby Atmos) 系統(tǒng)。
在這里要先講解一下通常電影聲效制作的流程。一般電影的聲效是混合現(xiàn)場錄音和后期制作。一般而言,現(xiàn)場錄音只會記錄演員的對白,其他所有聲音都是后期制作。相信讀者可以猜到,為何面向?qū)ο舐曇舯容^適合電影制作,是因為所有后期制作的聲音甚至演員的對白都可以視為一個對象,并在后期制作中定位。很多電影并無涉及任何場景錄音的需要。更何況現(xiàn)在很多電影都用上大量場景特效 (綠幕),并非現(xiàn)場拍攝,根本沒有真正的場景聲音可以錄制。
Dolby Atmos 混音插件
另一方面,主流 VR 游戲甚至一些新的非 VR 電子游戲都使用面向?qū)ο舐曇糁谱鳎ǔ敵龀蓤鼍奥曇簦饕且驗槊嫦驅(qū)ο舐曇艏夹g(shù)比較能對應(yīng)六自由度 (6 Degrees of Freedom (6 DoF) )的移動,意思是指玩家可以前后左右移動,聲音會根據(jù)玩家的位置作出對應(yīng)的調(diào)整。
場景聲音
其實目前場景聲音的制作并不常見,但相信 360 影片的流行,這技術(shù)很快會變得普及。這技術(shù)其中一個好處是,一般人只要利用 Ambisonics 咪錄音,不需要太多后期制作,都可以有理想的 3D 聲效,而且該聲效可以根據(jù)觀眾觀看影片的角度作出對應(yīng)的調(diào)整, (注:只限角度,暫時不包括前后左右移動)。例如你在看影片時可以聽到聲音從后方來,而當你 180 度轉(zhuǎn)向后方后,你會聽到該聲音跟隨轉(zhuǎn)向移到你的前方。讀取場景聲音亦不需要很復(fù)雜的系統(tǒng)。這技術(shù)對系統(tǒng)的要求低,檔案容量細,都是在未來普及的潛在優(yōu)勢,特別在 Youtube 和 Facebook 之類的網(wǎng)上串流平臺都以這技術(shù)為基礎(chǔ)。 目前比較平民的器材有Ricoh theta V 的外置收音器。當然目前用此技術(shù)最大的問題是,因為收音的距離和欠缺指向性,收音的質(zhì)素比較差,暫時改善的方法主要會配合面向?qū)ο舐曇羰褂茫^的混合方法。
Ricoh theta V 連外置收音
混合方法 (A Hybrid Method)
在錄音質(zhì)素的要求比較高的情況下,例如音樂會現(xiàn)場錄音,或其他音樂相關(guān)的制作等,單靠面向?qū)ο舐曇艋驁鼍奥曇簦茧y以滿足音質(zhì)要求。面向?qū)ο舐曇羟啡爆F(xiàn)場感,而場景聲音的錄音又不夠清晰。人類一般對錄音的要求,通常比現(xiàn)場的聲音高,研究員戲稱超真實感聲音 (Hyper-Realistic Sound) 。要達到這個要求,目前最先進的做法是用場景聲音作為背景 (或稱為畫紙(Canvas) ),在該錄音為基礎(chǔ)再在上面加上面向?qū)ο舐曇簟_@樣就可以確保聲音清晰同時保有現(xiàn)場感。目前 Dolby Atmos 已經(jīng)支持場景聲音,去改善后制的聲音效果,可見未來可以用在音樂會或戲劇的現(xiàn)場錄音中。 而在360影片,一般實時使用混合方法,輸出時都會用場景聲音 Ambisonics 的文件格式來輸出來維持檔案的輕巧和容易解讀。當然 Dolby Atmos 用較復(fù)雜的混合檔案,配合該系統(tǒng),理論上可提供較好的音質(zhì)。但在 360 影片或 VR 中,因為輸出在不同角度下的表現(xiàn)比較平均 (所有喇叭的間距一致,平均地分布在虛擬球面),場景聲音輸出一般是首選。
額外知識: MPEG-H
MPEG-H 是MPEG系列 (如 .mp4) 的新一代高壓縮的影音格式,加入了 3D 聲效支撐,他同時支持面向?qū)ο舐暫蛨鼍奥曇簟_@個格式已經(jīng)發(fā)展了一段時間 (2013) ,雖然目前并未流行,但相信未來會成為的主流格式。 小結(jié) 目前最常見的 3D 聲效應(yīng)技術(shù)為面向?qū)ο舐曇?(Object Based) 及場景聲音 (Scene Based) 且有時會混合使用。其實這些技術(shù)的應(yīng)用已經(jīng)日漸普及,很多新出的第一身游戲或多或少都會用到 3D 聲效去增加現(xiàn)場感。特別在射擊游戲,能夠用耳朵去感覺四面八方能大大改善游戲體驗。而在 360 影片或 VR 甚至其他 XR (統(tǒng)稱 VR、AR、MR 等虛擬現(xiàn)實的體驗為 XR) 的潮流下,很多公司包括 Abbey Road Studio 和 BBC 都投放很多資源去改善 3D 聲效制作及播放技術(shù)。
-
音頻
+關(guān)注
關(guān)注
31文章
3188瀏覽量
85578 -
定位技術(shù)
+關(guān)注
關(guān)注
7文章
315瀏覽量
26428 -
vr
+關(guān)注
關(guān)注
34文章
9694瀏覽量
157242
原文標題:【干貨】開發(fā)者必須了解的VR音頻定位技術(shù)
文章出處:【微信號:vrtuoluo,微信公眾號:VR陀螺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
2025華為開發(fā)者大賽暨開發(fā)者年度會議成功舉辦
深入剖析ARM64異常處理:開發(fā)者必須掌握的底層核心邏輯
2025開源鴻蒙開發(fā)者激勵計劃正式啟動
QCon·上海站HarmonyOS開發(fā)者技術(shù)分論壇:共探鴻蒙開發(fā)新機遇
2025開放原子開發(fā)者大會11月啟幕
芯科科技2025年Works With開發(fā)者大會深圳站W(wǎng)i-Fi技術(shù)專場前瞻
芯科科技2025年Works With開發(fā)者大會深圳站Matter技術(shù)專場前瞻
NVIDIA DRIVE AGX Thor開發(fā)者套件重磅發(fā)布
曙光網(wǎng)絡(luò)SugonRI開發(fā)者社區(qū)正式上線
迅龍軟件參加昇騰 AI?開發(fā)者創(chuàng)享日?廣東站,為開發(fā)者打造沉浸式實操體驗
昂瑞微亮相MFi開發(fā)者技術(shù)沙龍
OpenHarmony 2025年度技術(shù)俱樂部及開發(fā)者協(xié)會獎項評選通知
矽速科技正式入駐 RuyiSDK 開發(fā)者社區(qū),共建 RISC-V 開發(fā)者生態(tài)!
HDC 2025開發(fā)者主題演講精彩回顧
深開鴻CEO王成錄:開發(fā)者是開源鴻蒙生態(tài)的原點
開發(fā)者必須了解的VR音頻定位技術(shù)
評論