国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

準確性超Moshi和GLM-4-Voice,端到端語音雙工模型Freeze-Omni

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 2024-12-17 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

GPT-4o 提供的全雙工語音對話帶來了一股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實現端到端的語音到語音(Speech-to-Speech)對話能力,但是目前大部分開源方案存在以下兩個問題:

LLM 災難性遺忘:由于現有方案在語音模態與 LLM 進行對齊時,會或多或少對 LLM 進行微調,但由于要采集到與 LLM 本身訓練的文本數據同等量級的語音數據是非常困難的,所以這一微調過程往往會導致 LLM 出現遺忘現象,造成 LLM 的聰明度下降

語音問答(Spoken Question Answering)任務的評估:多數工作對于語音問答的準確性并沒有進行定量評估,從已有的一些評估結果也可以看出同一模型語音問答和文本問答相比準確性會有明顯的差距

針對上述這些問題,近日騰訊&西工大&南大的研究人員提出了一種低延遲的端到端語音雙工對話模型 Freeze-Omni(VITA 大模型系列第二個工作),其可以在完全凍結 LLM 的情況下,為 LLM 接入語音輸入和輸出,使其能夠支持端到端的語音對話能力,且通過一系列優化使得其具備低延遲的雙工對話能力,其主要特性如下:

在整個訓練過程中,LLM 的參數被完全凍結,確保大型語言模型的知識能力被完全保留;

訓練過程中所依賴的數據規模較小,消耗的計算資源也較少。Freeze-Omni 僅需要文本-語音配對數據(如 ASR 和 TTS 訓練數據,比較容易獲得)以及僅少量的文本模態的問答數據,語音問答準確性顯著超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型;

Freeze-Omni 可以支持任何具有文本模態的(多模態)大語言模型,能夠保留基底大語言模型的能力,如提示服從和角色扮演等。此外,如果有必要改變大語言模型的領域或者回應方式,只需要用相應的文本數據對大語言模型進行微調即可,不需要采集大量語音的問答和對話數據。

04a1c67c-b61a-11ef-93f3-92fbcf53809c.png

論文標題:

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

論文鏈接:

https://arxiv.org/abs/2411.00774

項目主頁:

https://freeze-omni.github.io/

開源代碼:

https://github.com/VITA-MLLM/Freeze-Omni

三階段訓練策略實現語音輸入輸出能力

Freeze-Omni 的整體結構如圖 1 所示,其包含有語音編碼器(Speech Encoder)和語音解碼器(Speech Decoder)以及基底 LLM 三部分。 在運行過程中,流式的語音輸入通過語音編碼器形成分塊(Chunk)特征,然后通過 Adapter 連接到 LLM,LLM 生成的 Hidden State 和文本 Token 的在分塊分割后,分別以塊的形式送入非自回歸前綴語音解碼器(NAR Prefix Speech Decoder)和非自回歸語音解碼器(NAR Speech Decoder)以進行 Prefill 操作。 最后自回歸語音解碼器(AR Speech Decoder)將會完成 Generate 操作以生成語音 Token,并由 Codec Decoder 將其流式解碼為語音信號輸出。

04b173c4-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖1. Freeze-Omni框架圖 Freeze-Omni 各個模塊的三階段訓練策略如下: 流式語音編碼器的三階段訓練:如圖 2 所示,第一階段(a)會先使用 ASR 數據訓練一個具有 ASR 能力的語音編碼。 第二階段(b)會以 ASR 任務為優化目標,將語音編碼器與 LLM 做模態對齊,這個過程中 LLM 是處于凍結狀態的。 第三階段(c)會使用由 TTS 系統合成的語音輸入-文本回答的多輪 QA 數據進行訓練,這里會使用第二階段訓練好的語音編碼器,但是其參數保持凍結以保留其語音魯棒性,而可訓練的參數只有每個問題前的 Prompt Embedding,用于指導 LLM 從 ASR 任務遷移到 QA 任務中。

04c4933c-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖2. 流式語音編碼器的三階段訓練示意圖 流式語音解碼器的三階段訓練:如圖 3 所示,第一階段(a)會先訓練一個單碼本的語音編解碼模型,使用單碼本的目的主要是為了降低計算復雜度和時延。 第二階段(b)將會訓練 NAR 語音編碼器和 AR 語音編碼器,這里會使用文本-語音的 TTS 數據,其文本會通過基底 LLM 的 Tokenizer 轉化為 Token,再經過基底 LLM 的 Embedding 層轉化為文本特征,這個過程中 Embedding 的參數是凍結的,訓練目標的語音 Token 是由第一階段的語音編碼器提供。 第三階段(c)將會凍結第二階段訓練得到的所有網絡,但同時加入了一個 NAR Prefix 語音編碼器,其用于接受 LLM 輸出的 Hidden State,并將輸出的 kv-cache 作為第二階段模型的初始 kv-cache,該過程使用的數據是文本輸入-語音輸出的 QA 數據,主要目的是為了使得語音編碼器遷移到 LLM 的輸出領域中。

04e17d44-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖3. 流式語音解碼器的三階段訓練示意圖 雙工對話的狀態標簽訓練:如圖 4 所示,為了實現雙工交互,Freeze-Omni 在語音編碼器訓練的第三階段中,會為每個 Chunk 的最后一個語音幀對應的 LLM 輸出 Hidden State 加入一個額外的分類層進行多任務訓練,其目的主要是為了輸出狀態標簽。 當使用 VAD 激活語音流輸入后,狀態標簽 0 表示 LLM 將會繼續接受語音 Chunk 的輸入,狀態標簽 1 表示 LLM 將會停止接收語音,且會打斷用戶并進入 LLM 的 Generate 階段輸出回復,狀態標簽 2 表示 LLM 也會停止接收語音,但不會打斷用戶,相當于對這次語音激活做了拒識。

050cf406-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖4. 全雙工對話的狀態標簽訓練示意圖

模型性能測評

訓練配置:Freeze-Omni 在訓練過程中,使用了開源 Qwen2-7B-Instruct 作為基底模型,語音編碼器在訓練過程中使用了 11 萬小時中文英文混合的 ASR 數據,語音解碼器訓練過程使用了 3000 小時由 TTS 系統合成的文本-語音數據,所提到的 QA 數據是由 6 萬條從 moss-003-sft-data 中抽取的多輪對話經過 TTS 系統合成得到的。 語音輸入理解能力評估:Freeze-Omni 提供了其在常見的英文測試集上的 ASR 性能測試結果,從中可以看出,其 ASR 準確性處于較為領先的水平。

05343ed0-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖5. 語音理解能力評估 語音輸出質量評估:Freeze-Omni 提供了其在 1000 條 LLM 輸出的 Hidden State 與 Text Token 上語音解碼器生成的語音在使用 ASR 模型測試得到的詞錯誤率(CER),從結果中可以看出 NAR Prefix 語音解碼器的引入會有效降低詞錯誤率,提高生成語音的質量。

0555afac-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖6. 語音輸出質量評估 語音問答準確性評估:Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三個集合上的語音問答準確率評估。 從結果中可以看出 Freeze-Omni 的準確率具有絕對的領先水平,超越 Moshi 與 GLM-4-Voice 等目前 SOTA 的模型,并且其語音模態下的準確率相比其基底模型 Qwen2-7B-Instruct 的文本問答準確率而言,差距明顯相比 Moshi 與其文本基底模型 Helium 的要小,足以證明 Freeze-Omni 的訓練方式可以使得 LLM 在接入語音模態之后,聰明度和知識能力受到的影響最低。

05601294-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖7. 語音問答準確性評估 系統延遲評估:Freeze-Omni 還提供了端到端時延分析(即用戶說完后到 LLM 輸出音頻的時間差),作者將其分為了可統計時延和不可統計時延兩部分,其中可統計時延的總時長平均數僅為 745ms,而作者也提到如果經過測量考慮到網絡延遲和不可統計時延部分,則系統的平均響應時延在 1.2s 左右,在行業內仍為領先水平。

0592eb88-b61a-11ef-93f3-92fbcf53809c.png

▲ 圖8. 系統延遲評估

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3730

    瀏覽量

    52027
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1309

原文標題:準確性超Moshi和GLM-4-Voice!端到端語音雙工模型Freeze-Omni

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    側大模型上車:從“語音助手”“車內 AI 智能體”的躍遷革命

    生活空間”的可能。當7B級大模型在車規級芯片上流暢運行,當多模態交互(語音+視覺+傳感)成為標配,車載助手已從“被動響應”升級為“主動決策”,成為車內真正的“數字大腦”。這場由側大
    的頭像 發表于 01-13 09:10 ?419次閱讀

    Nullmax感知規劃模型進化提速

    近日,2025年度浦東新區科技發展基金社會領域數字化轉型專項擬支持項目名單公布。經評審,Nullmax申報的《面向城市高級別輔助駕駛的感知規劃模型》項目入選。
    的頭像 發表于 12-22 16:39 ?472次閱讀

    如何訓練好自動駕駛模型?

    [首發于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:算法是怎樣訓練的?是模仿學習、強化學習和離線強化學習這三類嗎?其實
    的頭像 發表于 12-08 16:31 ?1381次閱讀
    如何訓練好自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>?

    智駕模擬軟件推薦——為什么選擇Keymotek的aiSim?

    隨著自動駕駛技術的快速發展,車企和科技公司對于模擬測試平臺的需求越來越強。從L2/ADASL4/L5等級的自動駕駛,虛擬模擬已經成為其中的關鍵一環。特別是對于「」智駕(
    的頭像 發表于 11-18 11:35 ?771次閱讀

    自動駕駛中“一段式”和“二段式”有什么區別?

    [首發于智駕最前沿微信公眾號]最近有小伙伴提問,一段式和二段式有什么區別。其實說到自
    的頭像 發表于 10-24 09:03 ?1077次閱讀
    自動駕駛中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么區別?

    自動駕駛模型為什么會有不確定性?

    。為了能讓自動駕駛汽車做出正確、安全且符合邏輯的行駛動作,模型被提了出來。
    的頭像 發表于 09-28 09:20 ?826次閱讀
    自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>為什么會有不確定性?

    語音交互數據 精準賦能語音模型進階

    模型在多輪對話、噪聲環境及語義理解方面表現不佳。 相較于傳統數據集僅關注語音-文本的單點轉寫,語音
    的頭像 發表于 09-11 17:17 ?710次閱讀

    蔚來模型化架構如何大幅提升安全上限

    2024年7月,蔚來將行業首個基于模型化架構的「自動緊急制動 AEB」推送上車,蔚來也成為了行業首家使用
    的頭像 發表于 08-15 15:35 ?887次閱讀

    華為CANN與智譜GLM模型完成適配

    已于7月28日正式開源其新一代基座模型GLM-4.5,其GLM模型已完成與CANN的適配。這標志著國產大
    的頭像 發表于 08-11 11:00 ?2511次閱讀

    廣和通發布自研語音識別大模型FiboASR

    7月,全球領先的無線通信模組及AI解決方案提供商廣和通,發布其自主研發的語音識別大模型FiboASR。該模型專為側設備上面臨的面對面實時對話及多人會議場景深度優化,在低延遲
    的頭像 發表于 08-04 11:43 ?1551次閱讀

    為什么自動駕駛模型有黑盒特性?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術落地,(End-to-End)大模型也成為行業研究與應用的熱門方向。相較于傳統自動駕駛系統中的模塊化結構,
    的頭像 發表于 07-04 16:50 ?848次閱讀
    為什么自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有黑盒特性?

    德賽西威與面壁智能發布側大模型語音交互方案

    日前,全球領先的移動出行科技公司德賽西威與側大模型技術領軍企業面壁智能共同發布業界首個基于高通座艙平臺(SA8255P,簡稱8255)的側大模型
    的頭像 發表于 05-14 17:40 ?1258次閱讀

    Momenta飛輪大模型開啟智能輔助駕駛行車體驗

    面對橋底迷宮下連續繞障左轉的場景,遭遇極窄夾縫、橋墩障礙物等復雜等路況,Momenta飛輪大模型以管家級智能輔助駕駛,無憂守護用戶的每一段旅程,將緊張時刻轉化為安全、安心的體驗,
    的頭像 發表于 05-14 14:37 ?1194次閱讀

    一文帶你厘清自動駕駛架構差異

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術飛速發展,智能駕駛系統的設計思路也經歷了從傳統模塊化架構模型轉變。傳統模塊化架構將感
    的頭像 發表于 05-08 09:07 ?987次閱讀
    一文帶你厘清自動駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架構差異

    自動駕駛中基于規則的決策和模型有何區別?

    在自動駕駛架構的選擇上,也經歷了從感知、決策控制、執行的三段式架構到現在火熱的模型,尤其是在2024年特斯拉推出FSD V12后,各車企更是陸續推出自家的
    的頭像 發表于 04-13 09:38 ?3705次閱讀
    自動駕駛中基于規則的決策和<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大<b class='flag-5'>模型</b>有何區別?