0 TL;DR
已適配 CosyVoice2 到 AX8850 開發板和 M.2 算力卡,可以協助樹莓派5實現本地語音克隆;
預編譯示例已開源(GitHub & HuggingFace),附帶簡易 Gradio 演示界面;
RTF 1.5 左右(M.2 算力卡 RTF 2.5左右),適合對實時性要求不高的離線場景;
想要RTF <0.1 的 TTS,對音色效果要求不高的場景,可以參考我們才適配好的 Kokoro:
https://huggingface.co/AXERA-TECH/kokoro.axera
背景
今年下半年,隨著業務推廣需求增加,我們的大模型適配工作也有了新方向:不再只追求前沿模型的快速適配,而是更聚焦為銷售團隊提供“能打”的實戰“彈藥”——也就是貼近客戶剛需的、可快速落地的大模型解決方案。
因此,接下來的技術分享會更聚焦在基于我司邊緣 AI 芯片 AX8850 的實際應用落地,幫助客戶實現從 Demo 到量產的跨越。
其中一個重點場景就是:離線語音智能助手。
目前實現方式大致分兩種:
組合式方案:ASR → LLM → TTS(或 Audio-LLM → TTS)
端到端方案:用一個全能大模型(如Qwen3-omni)直接處理語音輸入輸出
我們更傾向組合式方案,因為:
模塊靈活,可單獨升級替換
成本低,ROI 高
更容易適配不同客戶場景
而在組合方案中,TTS 是關鍵一環。我們希望它能支持語音克隆,讓助手更有“人味”。
目前主流的開源語音克隆TTS模型有:CosyVoice 2、IndexTTS2、VoxCPM 等。本文先帶大家快速看看 CosyVoice 2 在 AX8850 芯片上的部署進展,希望能為想在邊緣側做語音克隆的開發者提供一個新選擇。
CosyVoice2
CosyVoice 2 是阿里巴巴通義實驗室推出的一個開源多語言語音生成大模型,主要用于文本轉語音(TTS)應用的開發。該模型在前代 CosyVoice 的基礎上,通過系統性優化,實現了在流式(實時)模式下與人類語音媲美且近乎無損的合成質量,同時顯著降低了響應延遲。
Huggingface 鏈接:
https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B
GitHub 鏈接:
https://GitHub.com/FunAudioLLM/CosyVoice
Paper 鏈接:
https://arxiv.org/pdf/2412.10117
Demos:
https://funaudiollm.GitHub.io/cosyvoice2/
架構特點:
CosyVoice 2 的架構延續了將語音信號的語義信息(說什么)和聲學信息(怎么說)分離建模的設計理念,主要由三個關鍵組件構成:
監督式語義語音分詞器 (Supervised Semantic Speech Tokenizer):
這是一個基于 SenseVoice-Large ASR 模型改造的模塊。
它使用有限標量量化 (Finite Scalar Quantization, FSQ) 技術,將連續的語音信號離散化為語義語音標記(speech tokens)。
FSQ 的引入替代了傳統的向量量化(VQ),顯著提高了碼本利用率,能更有效地捕捉和保留語音中的信息。
統一的文本-語音語言模型 (Unified Text-Speech Language Model):
這是 CosyVoice 2 的核心創新之一,實現了流式與非流式合成的統一。
該模型直接采用一個預訓練的大型語言模型(Qwen2.5-0.5B)作為骨干網絡,去除了前代模型中的文本編碼器和說話人嵌入,簡化了架構并增強了上下文理解能力。
流式模式:輸入文本以連續流的方式接收。模型通過將 N 個文本標記與 M 個語音標記按特定比例(如 5:15)混合的方式進行訓練。當模型預測到“填充標記”時,系統便知道需要繼續接收下一個文本塊,從而實現邊接收文本邊生成語音標記的流式處理。
非流式模式:完整的輸入文本和語音標記被直接拼接,模型進行一次性生成。
通過在同一模型上同時訓練這兩種模式,CosyVoice 2 實現了“一個模型,兩種模式”,并且流式合成的質量與非流式模式幾乎無損。
塊感知因果流匹配模型 (Chunk-Aware Causal Flow Matching Model):
該模塊負責將語言模型生成的語義語音標記轉換為包含音色、韻律等細節的梅爾頻譜圖(Mel spectrum)。
它基于流匹配 (Flow Matching) 技術,是一種非自回歸(NAR)的生成模型。
為了支持流式合成,模型設計了因果卷積 Transformer UNet 結構,并引入了四種不同的注意力掩碼:
- 非因果掩碼:用于離線模式,性能最佳。
- 全因果掩碼:僅允許訪問過去的信息,延遲最低。
- Chunk-M/Chunk-2M 掩碼:權衡延遲與性能,允許訪問有限的未來信息。
在訓練時,隨機從這四種掩碼中選擇一種,使得單一模型能夠適應不同的合成場景(低延遲流式、高質量離線等),極大地簡化了部署。



Benchmark

總結來說,CosyVoice 2 的架構通過 FSQ 提升信息編碼效率,利用統一的 LLM 架構實現流式與非流式的無縫切換,并采用塊感知的因果流匹配模型來支持靈活的流式聲學合成,最終構建了一個高質量、低延遲、部署靈活的先進語音合成系統。
部署示例
為了更好的進行開發者社區技術推廣,因此我們將借助國內外非常成熟的樹莓派生態產品:樹莓派 5+AXCL 算力卡的形態進行說明。基于 AX8850 的社區開發板同樣也支持部署該實例,本文就不單獨說明了。
默認本文的閱讀者能自行解決訪問 Huggingface 的辦法。
硬件推薦
樹莓派 5 + LLM8850-Card

樹莓派 5 + Maix4-HAT

軟件步驟
默認已按照硬件產品的指導文檔完成了硬件及必要的軟件驅動安裝(例如 AXCL 驅動包)。
預編譯好的模型和示例已經上傳到 huggingface(或者 hf-mirror)。
https://huggingface.co/AXERA-TECH/CosyVoice2
如何將原始的模型轉換成 axmodel 并部署,請參考我們的 GitHub 倉庫。
https://github.com/AXERA-TECH/Cosyvoice2.Axera
(友情提示:除非對該模型有 finetuning 需求的同學,否則我建議一開始不要浪費時間來學習該模型的換行或者示例代碼的編譯,因為過程比較復雜┓( ′?` )┏)
獲取示例
//代碼開始
pip install huggingface_hub exportHF_ENDPOINT=HTTPS://hf-mirror.com hf downloadAXERA-TECH/CosyVoice2--local-dirAXERA-TECH/CosyVoice2
//代碼結束
安裝依賴
//代碼開始
cdAXERA-TECH/CosyVoice2 pip install -r scripts/requirements.txt pip install modelscope modelscope download --model pengzhendong/wetext --local_dir pengzhendong/wetext
//代碼結束
運行示例
這里我們選擇基于 Gradio WebGUI 的方案
運行 tokenizer 服務
//代碼開始
cdscripts Python cosyvoice2_tokenizer.py
//代碼結束
運行 axcl api 程序
//代碼開始
cponnxruntime-Linux-aarch64-1.23.0/lib/libonnxruntime.so.1.23.0libonnxruntime.so.1 run_axcl_aarch64.sh
//代碼結束
運行 gradio 腳本
//代碼開始
Python scripts/gradio_demo.py
//代碼結束
通過 web 瀏覽器訪問

補充知識
阿里巴巴通義實驗室除了研發家喻戶曉的通義千問大模型之外,其實還有很多其他有趣、有價值的項目。
FunAudioLLM

是阿里巴巴通義實驗室推出的一個面向語音生成的開源大模型項目,旨在通過大語言模型(LLM)技術,實現更自然、更智能的語音合成與對話能力。
FunAudioLLM 并不是一個單一模型,而是一個包含語音識別(SenseVoice)和語音合成(CosyVoice)的開源語音生成大模型套件。它代表了阿里在語音技術領域的前沿探索,致力于打造能理解情感、自然交流的下一代人機語音交互體驗。
FunAudioLLM 的整體目標是構建一個端到端的語音生成系統,將先進的語音識別(SenseVoice)與高質量的語音合成(CosyVoice)能力深度結合,實現從“聽懂人話”到“說出人話”的完整、智能閉環。它特別適用于:
智能客服與虛擬助手:不僅能理解用戶語音并識別其情緒,還能用自然、富有情感的語音進行回應。
有聲書與內容創作:用指定音色朗讀文本。
多語言內容生成與實時翻譯:支持跨語言的語音轉寫與合成。
會議記錄與無障礙閱讀:實時轉錄并可選語音播報。
在后續的文章中,我們會針對 SenceVoice 模型單獨說明。
感謝
@M5Stack @矽速科技 提供適用于樹莓派 5 的 M.2 2242 算力卡 和 Maix4-HAT 算力模組
@某營銷部同學貢獻聲源片段數據輔助 CosyVoice 2 生成《贈汪倫》
-
開發板
+關注
關注
26文章
6161瀏覽量
114185 -
樹莓派
+關注
關注
122文章
2072瀏覽量
109973 -
AI芯片
+關注
關注
17文章
2077瀏覽量
36596
原文標題:愛芯分享 | AX8850社區開發板完成CosyVoice2適配
文章出處:【微信號:愛芯元智AXERA,微信公眾號:愛芯元智AXERA】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
愛芯元智邊緣AI芯片AX8850完成Qwen3-VL多模態大模型適配
【愛芯派 Pro 開發板試用體驗】部署愛芯派官方YOLOV5模型
愛芯元智旗下AI SoC芯片滿足電池應用方案功耗需求
愛芯元智推出首款旗艦芯片-AX630A
AI芯片公司愛芯元智榮獲2023中國IC領袖峰會兩項殊榮
愛芯元智AX620E和AX650芯片獲PSA一級安全認證
愛芯元智發布邊緣智能芯片AX8850
新品 | LLM-8850 Card, AX8850邊緣設備AI加速卡
愛芯元智攜手合作伙伴M5Stack亮相YOLO Vision 2025

愛芯元智邊緣AI芯片AX8850完成CosyVoice2大模型適配
評論