被灌满各种玩具c到失禁视频,成全电影大全在线播放视频免费观看下载,欧美一区二区视频高清专区,最近手机中文字幕高清大全

DAV首頁
數字音視工程網

微信公眾號

數字音視工程網

手機DAV

null
null
null
卓華,
招商,
null
null
null
快捷,
null

我的位置:

share

沉浸式音頻技術的制作、播放及發展與應用

來源:時代拓靈        編輯:ZZZ    2024-02-21 10:03:59     加入收藏    咨詢

咨詢
所在單位:*
姓名:*
手機:*
職位:
郵箱:*
其他聯系方式:
咨詢內容:
驗證碼:
不能為空 驗證碼錯誤
確定

什么是沉浸式音頻?大家最近可能經常聽到“沉浸式音頻”,“全景聲”這兩個名詞,那么它們與之前的環繞聲或者3D音頻有什么本質的區別嗎?

  沉浸式音頻技術近年來逐漸擴大其應用范圍,常見應用于VR,影視,會議等場景。本文由時代拓靈創始人&CEO,孫學京博士LiveVideoStack線上分享的內容整理而成,從聲場采集,傳輸,渲染播放算法以及軟硬件等方面詳細介紹了沉浸式音頻技術的制作、播放及發展與應用。

  大家好,我是來自時代拓靈的孫學京。本次分享將主要介紹沉浸式音頻的從采集制作一直到播放整個鏈條上所需要的一些軟件和硬件的技術,詳情如下:

  1、沉浸式音頻簡介

  1.1什么是沉浸式音頻?

  什么是沉浸式音頻?大家最近可能經常聽到“沉浸式音頻”,“全景聲”這兩個名詞,那么它們與之前的環繞聲或者3D音頻有什么本質的區別嗎?

  通俗地講,它們之間可能有很多的相似之處。但就技術層面來說,從底層架構,到最終的展現形式都有非常大的變化。

  首先我們把傳統的5.1音頻擴展為不僅包含聲道也包含對象和場景。目前,沉浸式音頻類型主要分為三大類:基于聲道Channel based audio(CBA)、基于對象Object-based audio(OBA)、基于場景Scene-based Audio(SBA)。

  目前市面上一些主流的系統主要是Dolby Atmos、MPEG-H以及影視行業的SMPTE 2098協議。其主體還是基于Dolby Atmos,但同時它還允許其它不同標準被兼容在此協議內,也就是說Dolby Atmos某種意義上是SMPTE 2098的一個子集,我們可以在兼容Dolby Atmos的同時,推出自己的標準。因此我相信,接下來沉浸式音頻將來會迎來一個非常大的利好。

  1.2沉浸式音頻-傳統到3D音效

  基于揚聲器的沉浸式音頻,常見的是5.1或7.1,如果是耳機設備,則會有HRTF雙耳3D環繞的音頻。5.1音頻實際上是固定的聲道位置,由左前、右前、左后、右后構成,而7.1就是在5.1基礎上再加兩個背后的聲道位置,.1就是低頻通道的意思。

  目前新的沉浸式音頻,不再局限于平面式的聲道,進一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳,頂部都會布有很多的喇叭;如果是家庭的話,我們經常叫做5.1.2,就是在頂上再設置兩個音箱,或者7.1.4就是在頂上再設置4個音箱。

  真正想要達到一個非常好的沉浸式效果,頂部的高度信息帶來的對人的感官沖擊感是非常強烈的,比如下雨或者打雷的聲音。即使在平時可能感覺不到很明顯的差別,但當你真的專注于音頻效果時,增加了高度信息的音頻感覺就會非常震撼。

  這種變革如果停留在傳統的5.1格式上是很難實現的。盡管傳統的做法通過布多層的方式也可以模擬出高度信息,但是并沒有從根本上,即制作混音端來改變底層的架構。因此,高度信息的增加實際上是對影視行業沉浸式音頻制作的巨大改變。加入高度信息的音頻會有很高的沉浸感,并且底層的渲染技術比傳統的5.1混音要復雜很多,方位的渲染精度也會大大的提升,所以整體的渲染質感有很大的提升。另外,近幾年在AR或者VR時代,非常強調交互的特性。比如VR頭顯設備的頭部跟蹤、旋轉,不僅要旋轉視頻,同時還需要旋轉聲場。這些都是傳統的5.1音頻(事先混音)很難實現的,而新的渲染技術,沉浸式音頻架構是可以實現的。

  至于其它的應用方面,在看電視節目的時候,沉浸式音頻還可以靈活的根據不同的場合控制選擇不同的語言,選擇聲場中不同的方位進行體驗等。這些都是通過傳輸一個對象或者傳輸一個聲場的概念來實現的,而傳統的5.1或者立體聲傳輸是沒辦法實現的(無法實現單音軌分離)。

  最后一點,制作與播放設備的分離。無論是5.1音箱、立體聲耳機或是其它設備,其中的混音都由渲染引擎中的軟件算法來實現。在制作的時候,混音師就會假想出一個球形的空間場景,也就不再完全依賴必須有一個5.1的混音廳才能將聲音混好,并且完成一次混音就可以在任何地方進行播放。

  1.3 Object Audio

  DolbyAtmos的混音界面如圖右下角所示,是一個模擬電影院的方盒子,屏幕在前方。其中小球代表的是音頻對象,其在三維空間中會有一個運動的軌跡?;煲魩煏鞫鷻C或者通過自己的混音環境來體驗混音(音頻對象)的軌跡,但實際最終播放的時候有可能是一個5.1或者7.1.4的混音環境,這個是由渲染引擎來完成的。

  對象音頻是現在比較流行,并且逐漸占據主流的。其源自于游戲,杜比作為一個商業公司將對象音頻徹底商業化推行到影院中,并進行了許多商業算法上的創新,解決了很多復雜的場景問題。

  對象音頻的一項核心組成部分就是元數據,我們實際上是通過位置、擴展度或者運動特性等來描述對象音頻,這些元數據都要傳輸到渲染端,同時會進行一些編碼壓縮操作。對象音頻的渲染方法一般是基于Panning,就是聲音如何通過幅值、相位的關系在多個喇叭或者耳機里產生一定的方位感。

  1.4 Scene-Based Audio

  Scene-Based Audio主要是以MPEG-H為代表(實際指MPEG-H中Scene-Based Audio部分所占比例較高)。Scene-Based Audio主要是用來描述場景的聲場,其核心的底層算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音頻的底層技術也不完全是新的,算法以及新的技術都是漸進的,近幾年隨著帶寬的加大,隨著復雜度即算力的增強,以及AR、VR新的交互方式的產生促進了技術的迅勐提升。Ambisonic也煥發了青春,VR成功將其帶到了大眾的面前。Ambisonic描述三維空間中的聲場,例如一階Ambisonic更多的是通過極坐標。

  一階Ambisonics:FOA

  Ambisonics中存在一種階的概念,一階Ambisonics我們稱之為FOA(First-Order Ambisonics),零階即沒有任何方向,也就是全向麥克風來描述聲場。通常情況下,在Ambisonic中B格式為中間格式,聲場采集設備得到的原始信號為A格式。為了便于后續的運算,無論麥克風是什么樣子,通常都會轉化為通用格式即B格式。

  如圖,X代表一個點元,通過Ambisonic的(W,X,Y,Z)表示,將其映射到一個聲場中是非常簡單的,主要是應用了三角函數進行一系列公式的計算。將其通用化后在高階時的表現即為球面諧波函數。

  高階Ambisonics:HOA

  描述聲場其實就是通過物理學的球面諧波函數來描述聲波在空間中的傳播,存在非常高的階數,如之前提到的零階、一階函數,甚至三階函數(右下角圖)。

  2、聲場采集技術

  2.1雙耳錄音

  接下來介紹聲場采集技術,在音頻平臺中比較常見的有雙耳錄音,模仿人類大腦工作方式,模擬人左/右耳聽到的聲音。常見的使用工具為3Dio人工頭麥克風。

  上圖為VR時代,3Dio的升級(復雜)版本,適合于四個方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場采集的上限,拋開人耳個性化的差異,達到的仿真效果要比HRTF等要好得多。這個錄音的輸出格式通常叫作Quad Binaural(QB)。

  2.2 Ambisonic錄音

  Ambisonic聲場錄音的優勢是更加靈活,通過錄音設備得到的Ambisonic信號,可以直接做很多的后續處理。但是如果用Ambisonic信號轉成Binaural,效果在某一點上會遜色于Binaural信號。我們也曾做過一些比較,如果是用于VR 360度的聲場采集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音整體表現會比較平均,也就是最好方向比QB差,但也會比QB最差的方向要好一些。

  有關聲場采集的算法以及麥克風的設備,相對來說比較復雜。簡單地說,與其它設備的麥克風陣列使用類似,都有同樣的需求:核心參數有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風還是ECM麥克風。早期一般會選擇ECM,但ECM的一致性稍差,所以比較貴的麥克風出場時都會自帶匹配的校準參數。目前新的麥克風更多的是MEMS,一致性相對較好,可以達到,可以滿足很多需求。Ambisonic聲場采集得到的陣列信號,在剛性球體上,可以近似的用剛性球體球面諧波函數,把傳感器得到的信號轉成球面諧波函數的一些系數來表示,然后針對系數進行后續的聲場的旋轉等操作。

  3、沉浸式音頻的制作,存儲,傳輸

  那么,有了沉浸式音頻聲場的采集,之后應該如何進行進行制作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業比較常用的。主流的Pro Tools目前已經全面支持Dolby Atmos,也可以支持一些高階的HOA;Reaper因為其功能強大,價格便宜,性價比高,被越來越多的音頻行業人士所喜愛。

  以上提到的我們稱為音頻工作站,實際上大部分的工作還是通過插件來完成的,工作站完成主流的工作,靠插件來完成具體的如混響算法或者VR相關的一些工作。常見的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。

  時代拓靈公司的插件,叫做Twirling Works,最初是為了VR制作來設計的。

  多通道音頻壓縮一般是通過提取相位差、幅值差等一些Parametric Stereo,多通道通常選擇降維或者去相關的方式。

  MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細節部分的信號取出來。將無方向的,環境聲音信號分離開。

  HOA的優勢是存在分層的編碼機制,如果在帶寬精度要求不高,帶寬不夠的時候,可以傳輸輸入較少的低階信號,如果帶寬足夠的話,則可以傳輸高階信號。

  對象音頻的編碼主要是來自杜比的科學家的貢獻,首先是兼容5.1開發了Joint object coding(JOC),可以將多個對象音頻下混到5.1聲道,通過傳統的5.1通道,生成的信號可以被5.1解碼器很好的兼容播放。并且如果同時支持對象音頻,就可以將其還原成為支持Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理,面向更多的對象,可以通過一些準則如:對象的重要性,能量等對多個對象做聚類。

  4、渲染與播放

  渲染與播放是非常關鍵的一個部分,渲染的方式通常叫做Panning,在三維空間中的渲染方式稱為Vector-based Amplitude Panning。

  HOA的渲染相對更復雜一些,主要需要考慮的是如何將不同的HOA的信息給到不同的喇叭。

  以上是優化HOA decoding所使用的準則之一Max rE。

  以上是Decoding的幾種不同方式,傳統的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進展,盡可能的使得渲染更均勻,最大程度保證音質不受損。

  5、基于IP的媒體實現音頻制作和體驗轉換

  隨著基于IP媒體的出現和對更好的娛樂體驗的追求,音頻終于在廣播中呈現它應有的突出作用。你甚至可以稱之為下一代音頻革命。行業對沉浸式音頻的接受將對現場直播產生巨大的影響——它已經在改變著音樂、劇院、影院、演播室、娛樂音樂、電影制片廠和錄音行業。

  沉浸式音頻成為現實

  把在水平面上運行的環繞聲擴展到三維音頻體驗(空間音頻),沉浸式音頻賦予創作人員和工程師在傳達情感方面有更高自由度以及對耳聞目睹的內容增加視角的更強大工具。目的是讓觀眾從任何方向(如果不是所有方向)都沉浸其中。

  沉浸式音頻使用從空間中一個或多個點捕捉聲場中聲音的三維聲,創建能夠混合適應不同類型的音響系統的“音頻對象”。由于能夠操控聲場或選擇特定的流,音頻對象打開由制作團隊和聽眾自身創造獨特體驗的大門。靈活性和選擇是關鍵。

  通過沉浸式音頻,觀眾/聽眾可以選擇特定的音頻對象,將其包含在他們看到和聽到的廣播節目版本內。就像一個附加的攝像機信號選項,如“進球攝像機”或“裁判攝像機”,可以選擇不同的音頻信號,將聽眾帶入比賽或其它現場體驗的不同部分。觀眾/聽眾可以改變他們的空間位置,從而獲得一個增加更大的現實性和如置身比賽中的感覺的不同視角。附加的聲音可能是來自配話筒的運動員,或者一級方程式賽車車手和工作人員之間的通話,或者其它任何可以在制作過程中捕捉的音頻元素。

  增加的聲源和數據增大復雜性

  現在傳統的聲場是立體聲和環繞聲:5.1和7.1,具有左、中、右、左環繞、右環繞和重低音/低頻效果。沉浸式音頻引入多兩層——除了環繞聲基本層之外,還有一個高度層和頂層。

  音頻對象具有描述如何在聲場內還原音頻的相關元數據,這些數據描述了位置、擴散、運動特征及其它還音信息,給予對象根據位置或通過特定的揚聲器進行靈活定位必不可少的獨立性。

  在沉浸式音頻實現中,廣播公司將發現需要應對和管理更多的音頻流。隨著這種格式在制作工作流程中占有一席之地,考慮到它比傳統的立體聲和環繞格式可能更復雜,一個關鍵的挑戰將是擴展服務。

  與在標準的環繞聲工作流程中相比,沉浸式音頻的音頻源、音頻流和對象的數量更高,為保持工作流程的定時/同步完整性,可能需要更全面的PTP網絡規程?;A設施的主要考慮因素將是流量和帶寬管理、QoS處理和適當的PTP網絡層次結構處理。

  從廣義上看,交換基礎設施方面的一個響應是與自動播出、控制和調度平臺集成,因為它們通過控制的方式反映了工作流程的意圖。更具體地說,處理基礎設施,廣播公司將需要使用可以顯示用于控制和配置的北向API的PTP可知的管理型IP交換機。

  從網絡的角度來看,廣播公司可能會考慮根據類別,將音頻源和對象捆綁在一起,例如源位置、被“收集”的聲音類型和要捕獲的特定效果。音頻流作為可以四處移動的對象得到管理,當底層基礎設施能夠以對人類大腦有意義的方式聚合數據時,這是有益的。

  為了保持數據流和數據的邏輯組織,與能夠靈活地管理此流量、憑借VLAN進行分組并確保加入恰當的QoS的交換基礎設施協同工作是很有用的。這在其它類型的通信(如內部通話、元數據)依賴于相同的基礎設施場合的工作流程中特別重要。

  為支持沉浸式工作流程,Artel的AoIP、管理型和支持PTP的交換機提供這種水平的流量控制/管理和PTP功能。該公司Quarra系列交換機中的邊界時鐘功能提供對PTP網絡進行分區的工具,以實現更好的性能。(音頻源智能分區可以防止PTP主時鐘過載狀態)。特別是對于直播活動,廣播公司可能會考慮根據哪些交換機服務哪些源來部署他們的網絡。

  先進的IP交換機簡化采用

  沉浸式音頻仍然處于相對早期的發展階段,還沒有標準配置獲業界采用。廣播公司已經對5.1.2、5.1.4和7.1.4進行了試驗,5.1.4似乎提供了出色的3D體驗,同時還使得基礎設施轉換可管理。

  6、行業現狀與相關應用

  有關行業現狀,聲場采集部分一階Ambisonics(FOA,First-Order Ambisonics)已經很常見了,并且同時也出現很多高階Ambisonics(HOA,Higher-Order Ambisonics)的采集。VR對于Ambisonic存在很強大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,大家對此技術有了更多的認知和重視。

  專業領域則主要是Object Audio和HOA兩大趨勢,接下來隨著5G、AR、VR的發展沉浸式音頻技術的未來是非??善诘?。

  關于沉浸式音頻技術的相關應用,毫無疑問影視娛樂,VR是最主要的應用,例如各家影院的杜比全景聲可以說是非常常見的。此外,在我認為會議其實是非很好的應用點,大家都希望能有一個很好的沉浸式的會議體驗。另外,還有聲場采集以及在其它聲學領域的應用,例如聲學事件監測,定位等也逐漸開始出現一些應用。

  來源:孫學京

免責聲明:本文來源于時代拓靈,本文僅代表作者個人觀點,本站不作任何保證和承諾,若有任何疑問,請與本文作者聯系或有侵權行為聯系本站刪除。(原創稿件未經許可,不可轉載,轉載請注明來源)
掃一掃關注數字音視工程網公眾號

相關閱讀related

評論comment

 
驗證碼:
您還能輸入500
    主站蜘蛛池模板: 临海市| 南宁市| 衡东县| 兴文县| 克东县| 嫩江县| 华阴市| 廊坊市| 墨竹工卡县| 石嘴山市| 资兴市| 罗江县| 景宁| 青海省| 黔南| 介休市| 军事| 吉水县| 磐安县| 海安县| 神池县| 沧州市| 新民市| 长阳| 洪江市| 孟津县| 宝清县| 那曲县| 慈利县| 扶余县| 吐鲁番市| 江孜县| 通河县| 南华县| 新田县| 香港| 临海市| 望谟县| 鄱阳县| 佛坪县| 兴和县|