国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

探究SoundStream神經音頻編解碼器

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-09-23 09:49 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

發布人:Google Research 研究員 Neil Zeghidour 和 Marco Tagliasacchi

音頻編解碼器通常可以有效地壓縮音頻,以此減少對存儲空間的需求或網絡帶寬。理想情況下,音頻編解碼器對最終用戶來說應是透明的,這樣解碼后的音頻在感覺上便可與原始音頻幾無差別,且編碼/解碼過程不會存在感知延遲。

在過去的幾年里,我們已經成功開發出不同的音頻編解碼器,如 Opus 和增強型語音服務 (Enhanced Voice Services,EVS),以此滿足這些要求。Opus 是一種多功能的語音和音頻編解碼器,支持 6 kbps(每秒千比特)到 510 kbps 的比特率。

目前它已被廣泛部署在視頻會議平臺(如 Google Meet)和在線媒體服務(如 YouTube)等各種應用中。EVS 則是由 3GPP 標準化組織開發、針對移動電話 (Telephony) 的最新編解碼器。與 Opus 一樣,它也是多功能編解碼器,可在 5.9 kbps 至 128 kbps 之間的多個比特率下運行。

這兩種編解碼器,無論使用哪一種,只要是在中低比特率(12 至 20 kbps)下重建的音頻,其質量都很好。但是若在非常低的比特率 (?3 kbps) 下運行時,音頻質量便會急劇下降。雖然這些編解碼器通過利用人類感知方面的專業知識,以及精心設計的信號處理流水線,能夠最大限度地提高壓算法效率,但人們仍希望用機器學習方法來取代這些人工流水線,通過數據驅動的方式對音頻進行編碼。

今年早些時候,我們發布了 Lyra,一個用于低比特率語音的神經音頻編解碼器。在“SoundStream:一個端到端神經音頻編解碼器”一文中,我們介紹了一個新穎的神經音頻編解碼器,它能提供更高質量的音頻,并擴展至編碼不同的聲音類型(包括干凈的語音、噪音和混響的語音、音樂和環境聲音),這推動了進一步的發展。

SoundStream 不僅是第一個用于語音和音樂的神經網絡編解碼器,還能在智能手機 CPU 上實時運行。此外,它還具備在廣泛比特率范圍內,以單一訓練模型呈現最高質量的能力這代表著可學習編解碼器方面的一個重大進步。

SoundStream:一個端到端神經音頻編解碼器

https://arxiv.org/abs/2107.03312

從數據中學習音頻編解碼器

雖然人們可以毫不費力地推理如,話題持續時間、頻率或對話中事件先后順序等日常的時間概念,但這類任務對于對話代理而言則具有較大的挑戰。例如,目前的 NLP 模型在執行填空任務時,經常會做出糟糕的決定(如下圖所示),因為我們通常會假設其在推理方面僅具備基本的世界知識水平,或者需要理解整個對話回合中時間概念之間顯性和隱性的相互依賴關系。

SoundStream 訓練和推理。在訓練過程中,使用重建和對抗性損失的組合對編碼器、量化器和解碼器參數進行優化,這些損失是由判別器(訓練后用于區分原始輸入音頻和重建的音頻)計算得出。在推理過程中,發射器客戶端上的編碼器和量化器將壓縮的比特流發送到接收器客戶端,然后接收器客戶端就能對音頻信號進行解碼

利用殘差向量,量化學習可

擴容的編解碼器

SoundStream 的編碼器可產生無限多值的向量。為了用有限的比特數將這些向量傳輸至接收器,需要用一個與有限的集合(稱為碼本)接近的向量來代替它們,這個過程被稱為向量量化 (Vector quantization)。這種方法在比特率為 1 kbps 左右或更低的情況下效果很好,但在使用更高的比特率時,很快就會達到極限。例如,即使比特率低至 3 kbps,且假設編碼器每秒產生 100 個向量,也需要存儲一個包含超過 10 億向量的碼本,這在實踐中并不可行。

在 SoundStream 中,我們提出一個新的殘差向量量化器 (RVQ) 來解決這個問題,該量化器由多層組成(在我們的實驗中多達 80 層)。第一層以中等分辨率對代碼向量進行量化,接下來的每一層都對前一層的殘差錯誤進行處理。通過將量化過程分為幾層,可以讓碼本的大小縮減很多。舉例來說,在比特率為 3 kbps、每秒產生 100 個向量的情況下,如果使用 5 個量化器層,碼本大小會從 10 億變成 320。此外,通過增加或刪除量化器層,我們可以輕松地分別提高或降低比特率。

由于網絡條件在傳輸音頻時可能會發生變化,理想情況下,編解碼器應是“可擴容的”,這樣它就可以根據網絡狀態提高其比特率。雖然大多數傳統的編解碼器都是可擴容的,但以前的可學習編解碼器需要針對每個比特率專門進行訓練和部署。

為了規避這一限制,我們利用 SoundStream 中量化層的數量來控制比特率,并提出了一種稱為“量化器丟棄”的新方法。在訓練期間,我們隨機丟棄一些量化層來模擬不同的比特率。這能夠讓解碼器在任何比特率的輸入音頻流中展現出良好的性能,從而幫助 SoundStream 形成“可擴容性”。如此一來,單一的訓練模型可以在任何比特率下運行,并且與針對這些比特率專門訓練的模型具有同樣好的性能。

SoundStream 模型之間的比較(越高越好):在 18 kbps 下對這些模型進行訓練,分為采用量化器丟棄(比特率可擴容)、不借助量化器丟棄(比特率不可擴容)并用可變數量的量化器評估,或在固定比特率下訓練和評估(特定比特率)。與特定比特率的模型(每個比特率都有不同的模型)相比,由于采用量化器丟棄,可擴容比特率模型(針對所有比特率使用單一模型)并沒有損失任何質量

最先進的音頻編解碼器

3 kbps 下的 SoundStream 優于 12 kbps 下的 Opus,且在 9.6 kbps 下與 EVS 的質量接近,而且使用的比特少了 3.2 倍至 4 倍。這意味著用 SoundStream 編碼的音頻可以提供相似的質量,而使用的帶寬卻大大降低。此外,在相同的比特率下,SoundStream 的性能優于當前版本的 Lyra(基于自回歸網絡)。Lyra 已針對生產使用進行部署和優化,與之不同的是,SoundStream 仍然處于實驗階段。在未來,Lyra 將整合 SoundStream 的組件,以提供更高的音頻質量并降低復雜性。

SoundStream 與 Opus、EVS 和原始的 Lyra 編解碼器相比,性能的優越性在這些音頻實例中得到了體現,以下是其中的一部分。

音頻實例

https://google-research.github.io/seanet/soundstream/examples

聯合音頻壓縮和增強

在傳統的音頻處理流水線中,壓縮和增強(去除背景噪音)通常由不同的模塊執行。例如,可以在音頻壓縮之前,在發射器端應用音頻增強算法,或者在音頻解碼之后,在接收器端應用此算法。在這樣的設置中,每個處理步驟都會造成端到端的延遲。

與之相反,我們采用獨特的方式設計 SoundStream,使得壓縮和增強可以由同一個模型聯合執行,而不增加整體延遲。在下面的例子中,我們證明,通過動態地啟用和停用去噪(5 秒不去噪,5 秒去噪,5 秒不去噪,以此類推),可以將壓縮和背景噪音抑制結合起來。

原始的有噪音音頻

https://www.gstatic.com/soundstream_examples/ai_blog/soundstream_controllable_enhancement_noisy.wav

去噪輸出*

https://www.gstatic.com/soundstream_examples/ai_blog/soundstream_controllable_enhancement_denoised.wav

*通過間隔 5 秒啟用和停用去噪功能來演示

結論

在需要傳輸音頻時,無論是在線播放視頻,還是在電話會議期間,都需要高效的壓縮。對于改善機器學習驅動的音頻編解碼器來說,SoundStream 是非常重要的一步。它的性能優于最先進的編解碼器(如 Opus 和 EVS),可以按需增強音頻,并且只需部署一個可擴容的模型,而不需要部署很多。

SoundStream 將作為下一次改進版 Lyra 的一部分發布。通過集成 SoundStream 和 Lyra,開發者可以利用現有的 Lyra API 和工具進行開發工作,既獲享靈活性,也擁有更好的音質。我們也會將其作為一個單獨的 TensorFlow 模型發布,供實驗使用。

致謝

TimeDial 研究是 Lianhui Qi、Luheng He、Yenjin Choi、Manaal Faruqui 和本文作者共同努力的結果。Disfl-QA 研究是 Jiacheng Xu、Diyi Yang 和 Manaal Faruqui 的合作成果。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1218

    瀏覽量

    43389
  • 噪音
    +關注

    關注

    1

    文章

    171

    瀏覽量

    24539
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136928

原文標題:SoundStream 神經音頻編解碼器,無損音樂頃刻入耳

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    TLV320AIC1x系列單聲道編解碼器:特性、應用與設計要點

    TLV320AIC1x系列單聲道編解碼器:特性、應用與設計要點 在電子設備的音頻處理領域,編解碼器(CODEC)起著至關重要的作用。今天,我們要深入探討德州儀器(TI)的TLV320AIC1x系列
    的頭像 發表于 02-04 11:25 ?278次閱讀

    TLV320AIC2x系列編解碼器:高性能音頻解決方案解析

    TLV320AIC2x系列編解碼器:高性能音頻解決方案解析 在音頻處理領域,編解碼器(CODEC)的性能直接影響著音頻系統的整體表現。TI的
    的頭像 發表于 02-04 11:00 ?225次閱讀

    詳解TI的PCM2901/2903立體聲音頻編解碼器

    詳解TI的PCM2901/2903立體聲音頻編解碼器音頻設備領域,一款性能出色且功能豐富的編解碼器是實現高質量音頻處理的關鍵。今天我們要
    的頭像 發表于 02-04 10:30 ?233次閱讀

    德州儀器AIC111音頻編解碼器:低功耗與高性能的完美結合

    德州儀器AIC111音頻編解碼器:低功耗與高性能的完美結合 作為電子工程師,在設計音頻相關的硬件設備時,選擇一款合適的音頻編解碼器是至關重要
    的頭像 發表于 02-03 16:00 ?417次閱讀

    深入解析LM4546B AC '97多通道音頻編解碼器

    深入解析LM4546B AC '97多通道音頻編解碼器 在當今的電子世界中,音頻編解碼器扮演著至關重要的角色,尤其是在PC系統、便攜式設備以及汽車電子等領域。今天,我們要深入探討一款由
    的頭像 發表于 02-03 10:50 ?180次閱讀

    深入剖析LM4549B:高性能音頻編解碼器的技術指南

    深入剖析LM4549B:高性能音頻編解碼器的技術指南 在當今的音頻處理領域,高性能的音頻編解碼器對于實現出色的
    的頭像 發表于 02-03 10:50 ?219次閱讀

    TLV320AIC34音頻編解碼器:低功耗設計與高性能音頻處理的完美結合

    TLV320AIC34音頻編解碼器:低功耗設計與高性能音頻處理的完美結合 在當今的便攜式音頻和通信設備領域,低功耗、高性能的音頻
    的頭像 發表于 02-02 16:30 ?202次閱讀

    探索PCM3168A音頻編解碼器:高性能音頻處理的理想之選

    探索PCM3168A音頻編解碼器:高性能音頻處理的理想之選 在音頻處理領域,一款出色的編解碼器對于實現高質量
    的頭像 發表于 02-02 14:35 ?292次閱讀

    解析PCM5310音頻編解碼器:多功能設計與性能優勢

    解析PCM5310音頻編解碼器:多功能設計與性能優勢 在當今數字化音頻技術飛速發展的時代,音頻編解碼器作為核心組件,對于實現高質量
    的頭像 發表于 02-02 11:45 ?286次閱讀

    TLV320AIC3007:高性能低功耗音頻編解碼器的設計與應用

    TLV320AIC3007:高性能低功耗音頻編解碼器的設計與應用 在當今的電子設備中,音頻功能至關重要,特別是在智能手機、便攜式媒體播放等設備中,對
    的頭像 發表于 02-02 11:30 ?191次閱讀

    TLV320AIC3206:超低功耗立體聲音頻編解碼器的卓越之選

    TLV320AIC3206:超低功耗立體聲音頻編解碼器的卓越之選 在當今的音頻處理領域,低功耗、高性能的音頻編解碼器是眾多便攜式設備和
    的頭像 發表于 01-30 16:00 ?283次閱讀

    探索MAX9860:16位單聲道音頻語音編解碼器的卓越性能與應用

    探索MAX9860:16位單聲道音頻語音編解碼器的卓越性能與應用 在當今的音頻設備領域,低功耗、高性能的音頻編解碼器需求日益增長。Maxim
    的頭像 發表于 01-28 16:10 ?150次閱讀

    德州儀器PCM2904/PCM2906立體聲音頻編解碼器:特性、應用與設計指南

    德州儀器PCM2904/PCM2906立體聲音頻編解碼器:特性、應用與設計指南 在當今數字化音頻的時代,高質量的音頻編解碼器對于各種
    的頭像 發表于 12-23 15:05 ?448次閱讀

    TLV320AIC12KIDBTR 低功耗單聲道語音頻編解碼器

    TLV320AIC12KIDBTR低功耗單聲道語音頻編解碼器產品型號:TLV320AIC12KIDBTR產品品牌:TI/德州儀器產品封裝:TSSOP30產品功能:語音頻編解碼器
    的頭像 發表于 12-20 11:30 ?429次閱讀
    TLV320AIC12KIDBTR   低功耗單聲道語<b class='flag-5'>音頻</b><b class='flag-5'>編解碼器</b>

    基于E203 RISC-V的音頻信號處理系統 -CODEC(音頻編解碼器)配置

    CODEC介紹 本設計采用的音頻編解碼器是WM8731,該編解碼器可以通過I2C進行寄存配置,可以調節主從模式、數據位數可設置為16bit、24bit、32bit。可以設置的傳輸模
    發表于 10-28 06:29