91精品国产91久久久麻豆 ,久久精品成人一区二区三区97精品久,51成人精品网站

【拆·應用】是為開源鴻蒙應用開發者打造的技術分享平臺，是匯聚開發者的技術洞見與實踐經驗、提供開發心得與創新成果的展示窗口。誠邀您踴躍發聲，期待您的真知灼見與技術火花！

引言

本期內容由AI Model SIG提供，介紹了在開源鴻蒙中，利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發的流程。

ASR/TTS介紹

ASR也就是自動語音識別（Automatic Speech Recognition），其主要作用是把人類語音里的詞匯內容轉變為計算機能夠讀取的文本形式。

TTS也就是文本轉語音（Text-to-Speech），它主要的功能是把計算機里以文本形式存在的信息轉變成人耳可聽見的語音。

ASR/TTS有著廣泛的用途，例如語音助手聊天、設備控制、新聞播報、有聲閱讀等。

Sherpa_onnx介紹

sherpa-onnx是一個開源語音處理工具包，具有輕量級、跨平臺和高性能的語音識別推理能力。它基于ONNX Runtime，支持CPU/GPU加速，且內存占用低、延遲小，適合實時流式語音處理。它兼容多種端到端語音模型（如Transformer、RNN-T），提供簡潔的C++/Python API，并支持動態斷句和流式識別，開箱即用。相比傳統方案（如Kaldi），sherpa_onnx依賴更少、部署更簡單，特別適合移動端、離線語音助手、實時字幕等場景兼顧效率與易用性。

sherpa_onnx已經移植到開源鴻蒙，直接支持ArkTS接口，本示例用到的接口如下：

開發準備

1.環境搭建：確保安裝了ArkUI開發所需的IDE，如DevEco Studio，并配置好相應的開發環境，包括SDK（本示例Api11及以上）版本等。

2.了解ArkUI框架特性：熟悉ArkUI的布局和組件使用方法，例如文本輸入框用于接收用戶輸入，按鈕組件用于觸發ASR語音識別操作等。還要了解ArkUI的數據綁定機制，方便將ASR識別結果和TTS合成狀態等信息實時顯示在界面上。

示例界面設計

底部欄：語音采集與文本輸入切換按鈕，點擊切換。

中間區：文本顯示區，呈現識別后文本和輸入內容。

頭部欄：標題、語音播放按鈕（播放中間區域文本）、設置按鈕（語速設置和聲音模型切換）。

示例功能邏輯

示例基于sherpa_onnx三方庫開發，此庫在OpenHarmony三方庫中心倉下載安裝，鏈接如下：

https://ohpm.openharmony.cn/#/cn/detail/sherpa_onnx

以下所展示的是本示例的流程圖，該流程圖涵蓋了從Vad聲音活動檢測的初始化階段，音頻采集器與渲染器初始化過程，接著是ASR（自動語音識別）模型和TTS（文本到語音）模型的加載，直至最終成功實現語音識別與語音生成的流程。

ASR模型解析核心實現

1.初始化Vad

Vad聲音活動檢測（Voice activity detection），也稱為語音活動檢測或語音檢測（speech activity detection或者speech detection），是檢測人類語音存在與否的技術，主要用于語音處理。Vad的主要用途在于說話人分割（speaker diarization）、語音編碼（speech coding）和語音識別（speech recognition），初始化vad過程如下：