我們現在可以與幾乎所有智能設備進行對話,但是它如何工作?當您問“這是什么歌?”時,正在使用什么技術?
Alexa如何運作?
根據Microsoft程序經理Adi Agashe的說法,Alexa是基于自然語言處理(NLP)構建的,該過程是將語音轉換為單詞,聲音和想法的過程。
亞馬遜會記錄您的話語。實際上,解釋聲音會占用大量計算能力,您的語音記錄會發送到Amazon的服務器以進行更有效的分析。
計算能力:指執行指令的速度,通常以kiloflops,megaflops等表示。
亞馬遜將您的命令分解為單獨部分的聲音。然后,它查閱包含各個單詞的發音的數據庫,以找出最接近對應于各個聲音組合的單詞。
然后,它識別出重要的單詞以使任務有意義并執行相應的功能。例如,如果Alexa注意到諸如“體育”或“籃球”之類的字詞,則會打開體育應用程序。
Amazon的服務器將信息發送回您的設備,Alexa可能會講話。如果Alexa需要說點什么,它將按照上述相同的過程進行,但是順序相反
深入的解釋
根據Trupti Behera的說法,“它始于信號處理,這為Alexa提供了盡可能多的機會通過清除信號來理解音頻。信號處理是遠場音頻中最重要的挑戰之一。
想法是改善目標信號,這意味著能夠識別電視等環境噪聲并將其最小化。為了解決這些問題,使用了七個麥克風來大致識別信號的來源,以便設備可以專注于此。回聲消除可以減去該信號,因此僅保留剩余的重要信號。
下一個任務是“喚醒字檢測”。它確定用戶是否說出設備被編程需要打開的單詞之一,例如“ Alexa”。需要這樣做以最大程度地減少誤報和誤報,這些誤報和誤報可能導致意外購買和引起客戶憤怒。這確實很復雜,因為它需要識別發音差異,并且需要在CPU能力有限的設備上進行識別。
如果檢測到喚醒字,則將信號發送到云中的語音識別軟件,該軟件將音頻和 將其轉換為文本格式。由于它查看英語中的所有單詞,因此輸出空間很大,并且云是唯一能夠充分擴展的技術。使用Echo播放音樂的人的數量使情況進一步復雜化-許多藝術家使用的名字拼寫方式不同于一般常見的單詞。
要將音頻轉換為文本,Alexa將分析用戶語音的特征(例如頻率和音高)以提供特征值。
給定輸入特征和模型,解碼器將確定最可能的單詞序列是什么,該模型分為兩部分。其中的第一個是先驗的,它根據大量現有文本為您提供最可能的序列,而無需查看功能,另一個是聲學模型,通過查看音頻對進行深度學習訓練和成績單。將這些組合在一起,并應用動態編碼,該編碼必須實時進行。”
分析命令
上面的命令包含3個主要部分:喚醒字,調用名稱,提示。
喚醒詞
當用戶說“ Alexa”時,它將喚醒設備。喚醒詞使Alexa進入聆聽模式,并準備接受用戶的指示。
調用名稱
調用名稱是用于觸發特定“技能”的關鍵字。用戶可以將調用名稱與操作,命令或問題結合使用。所有自定義技能都必須具有一個調用名稱才能啟動它。
Alexa的“技能”:語音驅動的Alexa功能。
表述
“Taurus”是一種話語。表述是用戶向Alexa請求時將使用的短語。Alexa從給定的語音識別用戶的意圖,并做出相應的響應。因此,基本上,這些表述決定了用戶希望Alexa執行的操作。
什么是NLP?
它是人工智能和計算語言學的融合,它處理機器與人類自然語言之間的相互作用,其中計算機必須分析,理解,更改或生成自然語言。
NLP幫助計算機使用多種形式的自然人類語言進行通信,包括但不限于語音和書寫。
“與計算機進行二十分鐘的閑聊不只是一個月球,而是去火星的旅程。”
在本文中,我發現了一個有趣的部分,其中說:“理解人類語言由于其復雜性而被認為是一項艱巨的任務。例如,有無數種不同的方式來排列句子中的單詞。而且,單詞可能具有多種含義,上下文信息對于正確地解釋句子是必要的。”
開始時,系統會輸入自然語言。
自然語言:任何通過使用和重復在人類中自然進化而無需有意識地計劃或預想的語言。自然語言可以采用不同的形式,例如語音或簽名
之后,它將 它們轉換為人工語言,例如語音識別。在這里,我們將數據轉換為文本形式,通過NLU(自然語言理解)過程來理解其含義。
一個很好的規則是,如果您只是在談論機器理解我們所說內容的能力,請使用術語NLU。NLU實際上是NLP廣闊世界的一個子集
隱馬爾可夫模型(NLU示例):
在語音識別中,此模型將波形的每個部分與之前發生的事情和之后發生的事情進行比較,并與波形字典進行比較以弄清楚正在說什么。
波形:聲帶的周期性振動導致發聲
隱藏的馬爾可夫模型(HMM)是您觀察排放序列的模型,但不知道模型產生排放所經歷的狀態序列。隱馬爾可夫模型的分析試圖從觀察到的數據中恢復狀態序列。
對于NeoSpeech的市場營銷專家Trevor Jackins來說,“它通過獲取語音數據并將其分解為特定時間段(通常為10到20毫秒)的小樣本來嘗試理解您的發言。將這些數據集與預語音進行比較,以解碼您在語音的每個單元中所說的內容。這里的目的是找到音素(最小的語音單位)。然后,機器查看一系列這樣的音素,并從統計角度確定最有可能說出的單詞和句子。”
然后,NLU會深入理解每個單詞,從而嘗試理解它是名詞還是動詞,使用的時態等。此過程定義為POS:語音標記的一部分。
據EasyGov的CPO Pramod Chandrayan所說,,“NLP系統也有一個詞匯(詞匯)和一組編碼到系統的語法規則。現代的NLP算法使用統計機器學習將這些規則應用于自然語言,并確定您所說內容背后最可能的含義。”
“要構建能夠理解自然語言的機器,必須結合使用規則和統計模型來提取語音。必須提取,標識和解析實體,并且必須在上下文中派生語義,并將其用于標識意圖。例如,必須解析一個簡單的短語,例如:“我需要從12月5日至10日去巴黎乘坐飛機和預定旅館”,并給出以下結構:
need:flight {intent} / need:hotel {intent} / Paris {city} / DEC 5 {date} / DEC 10 {date} / sentiment: 0.5723 (neutral)”
對于作者,主題演講者和顧問 Bernard Marr來說, “當Alexa在解釋您的請求時出錯時,該數據將在下一次使系統變得更好時使用。機器學習是語音激活用戶界面功能快速提高的原因。”
在亞馬遜網站上,我們可以讀到“通過自然語言理解(NLU),計算機可以推斷出說話者的實際含義,而不僅僅是他們說的話。基本上,這就是讓Alexa之類的語音技術推斷出您可能在詢問“ Alexa,外面的感覺是什么?”時要求本地天氣預報的原因。
如今的語音優先技術是使用NLU構建的,NLU是一種人工智能,其重點在于識別人類語言中的模式和含義。以語音助手為代理的自然語言處理已經重新定義了我們在家庭和其他方面與技術交互的方式。”
審核編輯 黃昊宇
-
語音識別
+關注
關注
39文章
1812瀏覽量
116064 -
人工智能
+關注
關注
1817文章
50102瀏覽量
265506 -
自然語言處理
+關注
關注
1文章
630瀏覽量
14669
發布評論請先 登錄
亞馬遜云科技Amazon S3重磅更新 引領企業云存儲未來方向
亞馬遜云科技推出Amazon Quick Suite,引領Agentic AI驅動的工作新范式
亞馬遜云科技在中國區域推出Amazon Graviton4實例 以自研芯片驅動企業算力升級
HarmonyOSAI編程自然語言代碼生成
北斗生態環境監測站:讀懂自然的 “語言”
【HZ-T536開發板免費體驗】5- 無需死記 Linux 命令!用 CangjieMagic 在 HZ-T536 開發板上搭建 MCP 服務器,自然語言輕松控板
人工智能浪潮下,制造企業如何借力DeepSeek實現數字化轉型?
云知聲四篇論文入選自然語言處理頂會ACL 2025
亞馬遜功能最強模型Amazon Nova Premier現已正式可用
自然語言處理的發展歷程和應用場景
東芝硬盤如何優化存儲
自然語言提示原型在英特爾Vision大會上首次亮相
?VLM(視覺語言模型)?詳細解析
Amazon Alexa如何工作?您的自然語言處理指南
評論