sese一区二区,亚洲精品久久一区二区三区777,久久久久99精品麻豆

如今，語音技術領域的許多最大參與者也是手機操作系統（OS）市場的重量級人物。微軟是第一個建立語音團隊的軟件/移動操作系統巨頭。在1990年代早期，比爾·蓋茨（Bill Gates）宣揚語音用戶界面（VUI）的好處，并預測它們將在計算機上的人類界面中發揮作用。谷歌在21世紀初通過建立一支由語音技術專家組成的精英團隊而變得咄咄逼人，并通過其Android版本刺激了移動行業向語音界面和語音控制的方向發展。蘋果一直是用戶體驗之王，直到最近，由于準確性方面的挑戰，蘋果才避免推動語音技術。然而，隨著Siri（一種語音禮賓服務）的收購以及該公司的技術融入iPhone 4S，蘋果可能會通過語音迎來新一代的自然語言用戶體驗。

由于各種原因，語音技術對移動行業至關重要，主要是因為它比打字更容易說話，而且因為手機的外形尺寸是圍繞說話而不是打字而構建的。此外，隨著移動搜索的巨大收入潛力，移動操作系統提供商看到了在其技術組合中添加語音識別的價值。

為什么要嵌入？

VUI 的大部分繁重工作都是在云中完成的。這就是大型操作系統參與者的大部分投資去向的地方。云提供了一個具有幾乎無限的MIPS和內存的環境 - 這是高級語音搜索處理的兩個基本要素。隨著基于云的語音技術使用的增長，嵌入式領域似乎也出現了類似的趨勢。

嵌入式語音是在無法訪問云時啟用語音控制和輸入的唯一解決方案，這是增加用戶體驗的必要功能。嵌入式語音還具有消耗更少MIPS和內存的能力，從而提高了設備電池電量的效率。

客戶端/云語音使用的最佳方案需要在客戶端上激活語音，并在云上繁重地破譯文本和含義。這可以實現設備始終打開并始終偵聽的方案，因此可以給出并執行語音命令，而無需按客戶端上的按鈕。這種“無需手或眼睛”的范例在汽車中特別有用，出于安全目的和在家中的便利性。

例如，在最近推出的Galaxy SII Android手機中，三星的語音通話利用Sension的TrueHandsfree語音控制（一種嵌入式語音技術）來激活帶有“嘿銀河”字樣的手機。這個短語調用了Vlingo基于云的識別服務，該服務允許用戶在不觸摸手機的情況下發出命令和輸入文本。

語音識別可以在具有低至10 MIPS和數萬字節內存的設備上實現。Sensory的語音芯片系列包括基于8位微控制器的RISC單芯片和利用小型嵌入式DSP的自然語言處理器。通常，在語音識別中投入的MIPS和內存越多，產品可以具有的功能就越多（更快的響應時間，更大的詞匯量和更復雜的語法）。

無論哪個平臺執行任務，語音識別的一般方法都是相似的。多年來，隱馬爾可夫建模和神經網絡等統計方法一直是語音識別的主要方法。從客戶端遷移到云允許部署統計語言建模和更復雜的技術。

維伊關卡

要創建真正免提、免眼的用戶體驗，必須解決幾個技術階段。

第 1 階段：語音激活

這實質上是取代按鈕按下。識別器需要始終處于打開狀態，準備好將階段 2 調用到運行狀態，并且能夠在非常嘈雜的情況下激活。第一階段的另一個關鍵標準是非?？斓捻憫獣r間。鑒于超過幾百毫秒的延遲可能會產生由用戶在識別器偵聽之前與階段 2 交談而導致的準確性問題，因此語音激活的響應時間必須與按鈕的響應時間相同，這幾乎是瞬時的。簡單的命令和控制功能可以通過 Stage 1 識別系統或更復雜的 Stage 2 系統嵌入到客戶端中，該系統可以嵌入或基于云的。

第 2 階段：語音識別和轉錄

更耗電且功能更強大的 Stage 2 識別器可將所講的內容轉換為文本。如果目的是短信或語音撥號，則該過程可以在此處停止。如果用戶希望回答問題或訪問數據，系統將進入第 3 階段。由于 Stage 1 識別器可以響應高噪聲，因此它可以降低汽車收音機或家用 AV 中的音量，以協助階段 2 識別。

第 3 階段：意圖和意義

這可能是這一過程中最大的挑戰。文本翻譯準確，但它是什么意思？例如，互聯網搜索所需的查詢是什么？今天的“智能”可能會嘗試修改搜索，以更好地滿足用戶的需求。然而，計算機在弄清楚意圖方面非常糟糕。蘋果的Siri智能助手是在國防部資助的CALO項目下開發的，該項目涉及300多名研究人員，可能是當今智能詮釋的最佳典范。

第 4 階段：數據搜索和查詢

根據查詢的不同，搜索數據并找到正確的結果可能很簡單，也可能很復雜。映射數據和方向可能是可靠的，因為語法很容易理解，并具有地圖搜索的明確目標。隨著谷歌和其他搜索提供商在數據搜索功能上投入大量資金和時間，這一階段將繼續改善。

第 5 階段：語音響應

對查詢的語音響應是顯示響應的一個很好的替代方法，這可能會導致駕駛員將視線從道路上移開或給家中帶來不便。當今最先進的文本到語音轉換系統具有高度的可理解性，并且已經發展到比以前的自動語音系統聽起來更自然。

為什么嵌入式識別器在第 1 階段替換按鈕需要這么長時間？

語音識別傳統上需要按鈕激活而不是語音激活。其主要原因是按鈕雖然分散了注意力，但即使在嘈雜的環境中也是可靠且響應迅速的。這些類型的環境（如汽車或繁忙的家庭）對語音識別器來說可能具有挑戰性。聲控詞必須在汽車（車窗關閉、收音機打開和道路噪音）或家中（嬰兒哭泣、音樂或電視打開以及電器運行）中創建響應，而無需用戶為其工作。因此，直到最近，只有當用戶處于安靜的環境中，麥克風靠近嘴巴時，語音技術才是可靠的。

快速響應時間的要求使這一挑戰進一步復雜化。語音識別器通常需要數百毫秒才能確定用戶在開始處理語音之前是否完成了通話。這種時間延遲可能是可以接受的，從識別系統產生答案或回復給消費者。但是，在第 1 階段，激活的響應是在階段 2 中調用另一個更復雜的識別器，并且使用者不會接受持續時間遠遠超過按下按鈕所花費的時間的延遲。延遲時間越長，階段 2 發生識別失敗的可能性就越大，因為用戶可能會在階段 2 識別器準備好收聽之前開始說話。

嵌入式語音技術的最新進展，如Sensory的真無握語音接口，無需觸摸設備即可提供真正的VUI。這些技術消除了嘈雜環境中固有的問題以及較長的響應時間，使語音激活可行，準確且更方便。

消費電子產品中語音的未來

許多年前，電視觀眾不得不站起來走到他們的單位來改變頻道。遙控器的到來結束了這一切，今天沒有人會買沒有遙控器的電視。盡管如此，我們仍然站起來，走到我們的大多數計算設備使用它們。隨著語音識別的改進，這將不再是必需的。

帶有語音觸發器的免提設備的快速使用將發展成為智能設備，這些設備可以傾聽我們所說的內容，并決定何時適合從客戶端轉到云端。他們還將決定何時以及如何回應，可能會演變成坐在后臺傾聽一切并決定何時提供幫助的助手。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

嵌入式

嵌入式

+關注

關注
5200

文章
20458

瀏覽量
334312
Android

Android

+關注

關注
12

文章
4026

瀏覽量
134040
計算機

計算機

+關注

關注
19

文章
7809

瀏覽量
93230

搜索歷史

行動端及云端的語音辨識的成長推動嵌入式語音技術

評論