Meta 近日在一篇題為 “High Fidelity Neural Audio Compression”(高保真神經音頻壓縮)的論文中公布了一項名為 "EnCodec" 的開源音頻壓縮技術,該技術由 AI 驅動,可以在音頻質量沒有損失的前提下,將音頻壓縮到比 MP3 格式還要小 10 倍的程度。

Meta 將這項技術的實現方法分成了一個由三部分組成的系統,經過訓練后的 AI 可以將音頻壓縮到所需的目標大小,其實現過程如下:
首先,編碼器將未壓縮的數據轉換為較低幀率的 "latent space" 表示(representation);
然后,量化器將這個表示壓縮到目標大小,同時跟蹤最重要的信息,這些信息以后將被用于重建原始信號(這個壓縮信號將通過網絡發送或保存在磁盤上);
最后,解碼器使用單個 CPU 上的神經網絡將壓縮的數據實時地轉變回音頻;
至于應用,Meta 表示這種由人工智能驅動的 "超壓縮音頻" 可以在惡劣的網絡條件下獲得更快、更優質的通話效果。作為一家 “梭哈” 元宇宙的公司,這項技術還可以提供更加豐富的元宇宙體驗(視頻會議、影音流媒體、VR 游戲等),而不需要提高帶寬。 除了語音通話,這項技術同樣可以應用于音樂領域,未來我們有望可以獲得高品質、小體積的音頻文件。 目前這項技術仍處于研究階段,源代碼和一些音頻樣本都已公開在 GitHub 上:https://github.com/facebookresearch/encodec
審核編輯 :李倩
-
人工智能
+關注
關注
1817文章
50100瀏覽量
265497 -
Meta
+關注
關注
0文章
322瀏覽量
12461
原文標題:比MP3小10倍,Meta公開全新音頻壓縮技術
文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
為什么你的設備需要一款“不留痕”的MP3錄音芯片?揭秘WT2605-24SS如何引領音頻新潮流
芯知識|MP3語音芯片如何成為現代智能設備的“聲音心臟”?
MP3010M - EV 10倍變焦模組
廣州唯創電子WT2003H MP3語音芯片方案:強大、靈活且易于集成的高性能音頻解決方案
多封裝長錄音:WT2003H系列MP3錄音芯片滿足全場景音頻需求
廣州唯創WT2003H錄音芯片-高精度ADC/DAC+64mA驅動MP3音頻芯片
廣州唯創電子WT2003Hx高品質MP3語音芯片:重塑智能設備音頻體驗
Waytronic廣州唯創電子 MP3語音芯片:現代智能設備的音頻解決方案
廣州唯創電子WT2003HX高品質MP3音頻語音芯片在早教故事機中的智能化應用
廣州唯創電子WT2003H4-16S高品質MP3音頻語音芯片在智能足浴桶中的應用介紹
廣州唯創電子WT2605C音頻藍牙MP3語音芯片:樓宇對講門鈴的智能“聲”力軍
新品|Unit AudioPlayer,支持 MP3/WAV 播放的音頻播放單元
芯資訊|廣州唯創電子語音芯片U盤MP3播放IC技術解析與應用指南
芯資訊|廣州唯創電子MP3語音芯片IC的音頻解碼方式解析
比MP3小10倍,Meta公開全新音頻壓縮技術
評論