人工智能行業(yè)產(chǎn)業(yè)鏈情況及市場(chǎng)規(guī)模
人工智能產(chǎn)業(yè)鏈包括基礎(chǔ)層、技術(shù)層、應(yīng)用層。基礎(chǔ)層是人工智能產(chǎn)業(yè)的基礎(chǔ),主要有AI芯片、傳感器、云計(jì)算平臺(tái)等,為人工智能提供算力與數(shù)據(jù)的支持;技術(shù)層包括感知層、認(rèn)知層、平臺(tái)層,感知層以算法模擬人的感知來(lái)構(gòu)建技術(shù)路徑,可分類為計(jì)算機(jī)視覺(jué)、語(yǔ)音、觸感和味覺(jué)等,認(rèn)知層以算法模擬人的認(rèn)知,使機(jī)器具備理解、學(xué)習(xí)、推理以及思考的能力,平臺(tái)層主要為技術(shù)開放平臺(tái)與基礎(chǔ)開源框架,為人工智能技術(shù)提供平臺(tái)支持;應(yīng)用層將人工智能技術(shù)落地到具體的應(yīng)用場(chǎng)景,根據(jù)不同需求形成具體的軟硬件產(chǎn)品與解決方案。
? ? ? ? ?

從技術(shù)應(yīng)用看,根據(jù)中國(guó)新一代人工智能發(fā)展戰(zhàn)略研究院2021年的研究,中國(guó)2205家人工智能企業(yè)中,涉及基礎(chǔ)層和技術(shù)層的人工智能企業(yè)共有382家。其中,智能芯片、語(yǔ)音識(shí)別和自然語(yǔ)言處理、圖形圖像識(shí)別、機(jī)器學(xué)習(xí)和推薦、工業(yè)機(jī)器人、硬件的企業(yè)數(shù)占比相對(duì)較高,依次為8.90%、8.64%、7.59%、5.76%、4.97%和3.66%。

從應(yīng)用場(chǎng)景看,根據(jù)艾瑞咨詢的研究,2020年中國(guó)人工智能市場(chǎng)的主要應(yīng)用場(chǎng)景為政府城市冶理和運(yùn)營(yíng)(公安、交警、司法、城市運(yùn)營(yíng)、政務(wù)、交運(yùn)管理、國(guó)土資源、監(jiān)所、環(huán)保等)、互聯(lián)網(wǎng)、金融,合計(jì)占比達(dá)到79%。而隨著人工智能行業(yè)核心技術(shù)的增速不同,不同下游行業(yè)對(duì)人工智能技術(shù)和產(chǎn)品的應(yīng)用節(jié)奏不同,未來(lái)行業(yè)格局將會(huì)發(fā)生一定變化。

2020年,中國(guó)提出加快包括大數(shù)據(jù)中心、人工智能等在內(nèi)的新型基礎(chǔ)設(shè)施建設(shè),推動(dòng)產(chǎn)業(yè)信息化、數(shù)字化、智能化轉(zhuǎn)型發(fā)展。由于非接觸式交互逐漸興起,人工智能融合應(yīng)用速度顯著加快。根據(jù)艾瑞咨詢預(yù)測(cè),2025年,人工智能核心產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到4,532.6億元;2025年,人工智能帶動(dòng)產(chǎn)業(yè)規(guī)模預(yù)計(jì)達(dá)到16,648.3億元。

人工智能語(yǔ)音語(yǔ)言行業(yè)基本概述
1)定義
人工智能語(yǔ)音語(yǔ)言技術(shù)即實(shí)現(xiàn)人與機(jī)器以語(yǔ)言為紐帶的信息處理技術(shù),人機(jī)對(duì)話通過(guò)對(duì)聲音信號(hào)的音頻采集與信號(hào)處理將語(yǔ)音轉(zhuǎn)化為文字供機(jī)器處理,在機(jī)器進(jìn)行語(yǔ)音識(shí)別與語(yǔ)義理解后、再進(jìn)行對(duì)話管理、自然語(yǔ)言生成并通過(guò)語(yǔ)音合成技術(shù)將文本語(yǔ)言轉(zhuǎn)化為聲音進(jìn)行輸出,最終形成完整的人機(jī)語(yǔ)音語(yǔ)言交互。
2)發(fā)展歷程
1952年,AT&T貝爾實(shí)驗(yàn)室成功研究出世界上第一個(gè)語(yǔ)音識(shí)別系統(tǒng)Audry,標(biāo)志著智能語(yǔ)音語(yǔ)言技術(shù)發(fā)展的開始。至今智能語(yǔ)音語(yǔ)言技術(shù)已經(jīng)歷經(jīng)了近70年的發(fā)展,經(jīng)歷了技術(shù)萌芽期、起步期、變革式發(fā)展期、落地可用期共四個(gè)發(fā)展階段。
技術(shù)萌芽期(1950s-1970s):Audry作為第一個(gè)語(yǔ)音識(shí)別系統(tǒng),可以識(shí)別10個(gè)英文數(shù)字發(fā)音,該系統(tǒng)基于簡(jiǎn)單的模板匹配方法識(shí)別個(gè)體說(shuō)出的孤立數(shù)字,在此之后,連續(xù)語(yǔ)音識(shí)別系統(tǒng)開始出現(xiàn)。語(yǔ)音合成的參數(shù)合成法能生成比較自然的語(yǔ)音。同一時(shí)代,以有限自動(dòng)機(jī)和正則匹配理論為基礎(chǔ)的文字處理技術(shù)出現(xiàn)。以喬姆斯基的文法和句法結(jié)構(gòu)為代表的理性主義方法,和以香農(nóng)信息論為代表的經(jīng)驗(yàn)主義方法都發(fā)展起來(lái)。出現(xiàn)了一些極為簡(jiǎn)單的翻譯、問(wèn)答和聊天系統(tǒng),但都無(wú)法實(shí)用。
起步期(1980s-2011):在此階段初期,隨著算法模型以及微電子技術(shù)的發(fā)展,語(yǔ)音識(shí)別領(lǐng)域取得了突破性進(jìn)展。隱馬爾科夫模型(HMM)逐漸成熟和不斷完善,開始成為語(yǔ)音識(shí)別的主流方法,語(yǔ)音識(shí)別轉(zhuǎn)向基于概率統(tǒng)計(jì)建模的方法,同時(shí)神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究興起。此后語(yǔ)音識(shí)別技術(shù)逐漸走向?qū)嵱没S多具有代表性的產(chǎn)品問(wèn)世,例如IBM研發(fā)的ViaVoice系統(tǒng),Dragon公司研發(fā)的DragonDictate系統(tǒng),都具有更好的自適應(yīng)性,能夠在使用過(guò)程中不斷提高識(shí)別準(zhǔn)確率。2009年,Hinton將深度神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于語(yǔ)音的聲學(xué)建模,取得了在語(yǔ)音識(shí)別方面的重大突破,使語(yǔ)音識(shí)別的準(zhǔn)確性得到顯著改善。與語(yǔ)音技術(shù)基本同步,這一時(shí)期的自然語(yǔ)言處理技術(shù)的發(fā)展,也出現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的統(tǒng)計(jì)模型逐漸占據(jù)主流地位的趨勢(shì)。從概率模型到支持向量機(jī),從線性分類器到神經(jīng)網(wǎng)絡(luò),大量數(shù)據(jù)驅(qū)動(dòng)的技術(shù)被應(yīng)用到自然語(yǔ)言處理領(lǐng)域,產(chǎn)生了一系列重大成果。這一階段中,理解、翻譯、問(wèn)答、對(duì)話系統(tǒng)等都在限定的范圍內(nèi)逐步實(shí)用化。
變革式發(fā)展期(2011-2016):2011年,微軟研究院又將DNN技術(shù)應(yīng)用在大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)上,極大地降低了語(yǔ)音識(shí)別錯(cuò)誤率。2016年,微軟AI團(tuán)隊(duì)在產(chǎn)業(yè)標(biāo)準(zhǔn)Switchboard語(yǔ)音識(shí)別任務(wù)上,取得了當(dāng)時(shí)產(chǎn)業(yè)中最低的5.9%的詞錯(cuò)率(WER),5.9%的詞錯(cuò)率等同于專業(yè)速錄員速記同樣一段對(duì)話的水平,這代表著機(jī)器的語(yǔ)音識(shí)別準(zhǔn)確率第一次達(dá)到人類水平,智能語(yǔ)音語(yǔ)言技術(shù)開始逐步落地。這一時(shí)期中,以連續(xù)詞向量、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型為代表的一系列深度學(xué)習(xí)技術(shù),進(jìn)一步大幅推動(dòng)了自然語(yǔ)言處理技術(shù)的發(fā)展,復(fù)雜場(chǎng)景下的自然語(yǔ)言處理的性能顯著改善。
落地可用期(2016-至今):端到端的語(yǔ)音識(shí)別開始廣泛應(yīng)用,準(zhǔn)確率進(jìn)一步提升,且針對(duì)遠(yuǎn)場(chǎng)的語(yǔ)音識(shí)別和喚醒得到進(jìn)一步發(fā)展,全雙工語(yǔ)音交互開始出現(xiàn)。此階段語(yǔ)音識(shí)別的準(zhǔn)確率可達(dá)98%以上,且能根據(jù)實(shí)際應(yīng)用痛點(diǎn)針對(duì)性優(yōu)化。大數(shù)據(jù)驅(qū)動(dòng)的預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),使得自然語(yǔ)言處理技術(shù)在這一階段又上了一個(gè)臺(tái)階,眾多小數(shù)據(jù)、跨領(lǐng)域的遷移學(xué)習(xí)技術(shù)也應(yīng)運(yùn)而生,自然語(yǔ)言處理的技術(shù)覆蓋范圍進(jìn)一步加強(qiáng),在產(chǎn)業(yè)中得到廣泛深入使用。

人工智能語(yǔ)音語(yǔ)言市場(chǎng)產(chǎn)業(yè)鏈情況

人工智能語(yǔ)音語(yǔ)言市場(chǎng)的產(chǎn)業(yè)鏈可依據(jù)關(guān)鍵技術(shù)拆分為六大環(huán)節(jié),各個(gè)環(huán)節(jié)又可以進(jìn)一步歸集為聲學(xué)、語(yǔ)音感知、語(yǔ)言認(rèn)知三大模塊。音頻采集與信號(hào)處理環(huán)節(jié)是智能語(yǔ)音語(yǔ)言交互的起點(diǎn),當(dāng)前的核心在于回聲消除、噪聲消除、聲源分離、提升遠(yuǎn)場(chǎng)和復(fù)雜聲學(xué)環(huán)境下語(yǔ)音喚醒和識(shí)別的準(zhǔn)確率等關(guān)鍵技術(shù);語(yǔ)音識(shí)別是把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或音頻類別的過(guò)程,當(dāng)前的核心在于聲紋技術(shù)、口音適應(yīng)能力、情緒識(shí)別能力、端到端識(shí)別、低功耗識(shí)別等;語(yǔ)義理解是通過(guò)自然語(yǔ)言處理等方式使機(jī)器理解語(yǔ)言的過(guò)程,當(dāng)前的核心在于口語(yǔ)語(yǔ)義理解問(wèn)題、對(duì)話關(guān)鍵信息抽取、知識(shí)提取及結(jié)構(gòu)化等;而對(duì)話管理是以多輪交互為核心的一系列自然語(yǔ)言認(rèn)知技術(shù)的綜合,是人機(jī)對(duì)話系統(tǒng)中的理解、決策和知識(shí)中樞,當(dāng)前的核心在于實(shí)現(xiàn)多模態(tài)、全雙工交互,增強(qiáng)機(jī)器在多任務(wù)、全場(chǎng)景、全領(lǐng)域的靈活對(duì)話能力;知識(shí)圖譜是現(xiàn)實(shí)世界知識(shí)的一種表達(dá)方式,當(dāng)前的核心在于知識(shí)圖譜構(gòu)建、問(wèn)答推理等;語(yǔ)音合成即從文本到語(yǔ)音,讓機(jī)器具備“說(shuō)話”的能力,當(dāng)前的核心在于使機(jī)器能夠?qū)崿F(xiàn)自然聲音、高表現(xiàn)力、小數(shù)據(jù)復(fù)刻轉(zhuǎn)換,以及方言及多語(yǔ)種的語(yǔ)音表達(dá)。
人工智能語(yǔ)音語(yǔ)言行業(yè)內(nèi)的大部分公司只專注于產(chǎn)業(yè)鏈的單個(gè)或部分環(huán)節(jié),少有公司能擁有覆蓋產(chǎn)業(yè)鏈各環(huán)節(jié)的技術(shù)、產(chǎn)品與服務(wù),當(dāng)前國(guó)內(nèi)人工智能語(yǔ)音語(yǔ)言行業(yè)的公司大約有400余家,僅有極少數(shù)可以實(shí)現(xiàn)全產(chǎn)業(yè)鏈覆蓋。
行業(yè)結(jié)構(gòu)

據(jù)德勤2021年的研究,在大環(huán)境需求的催化下,各行業(yè)智能化應(yīng)用迎來(lái)需求拐點(diǎn),進(jìn)入需求爆發(fā)期。預(yù)計(jì)2030年消費(fèi)級(jí)應(yīng)用場(chǎng)景總的發(fā)展空間將超過(guò)700億元。智能家居、智慧駕駛、智能辦公等企業(yè)級(jí)場(chǎng)景加速發(fā)展,市場(chǎng)需求不斷擴(kuò)大,發(fā)展空間預(yù)計(jì)即將達(dá)到千億規(guī)模。
智能語(yǔ)音語(yǔ)言技術(shù)使得人類的生產(chǎn)及生活方式逐步改變,基于智能語(yǔ)音語(yǔ)言技術(shù)的人機(jī)交互產(chǎn)品在接收用戶的聲音等信息后,能將用戶意圖轉(zhuǎn)換為機(jī)器可以理解和進(jìn)一步處理的內(nèi)容,從而幫助用戶解決問(wèn)題或完成特定任務(wù)。其中,對(duì)話式機(jī)器人可以降低人力成本,減輕人工工作量,提高工作效率,解決用戶客服、營(yíng)銷、質(zhì)檢、呼入、呼出等需求;搭載人機(jī)對(duì)話交互功能的消費(fèi)級(jí)智能硬件,例如智能家電、智能車載、智能可穿戴設(shè)備等,能夠通過(guò)語(yǔ)音語(yǔ)言交互的方式,提供更豐富的設(shè)備交互功能,提升設(shè)備操控便捷性。根據(jù)德勤2021年末發(fā)布的《中國(guó)智能語(yǔ)音市場(chǎng)分析》,2021年中國(guó)智能語(yǔ)音市場(chǎng)規(guī)模將達(dá)到285億元,較2020年的217億元增長(zhǎng)31.34%,預(yù)計(jì)在2030年市場(chǎng)規(guī)模將達(dá)到1,452億元。
除智能語(yǔ)音市場(chǎng)外,發(fā)行人產(chǎn)品下游市場(chǎng)還包括智能家居、智能汽車、消費(fèi)電子、企業(yè)服務(wù)和智慧城市等多個(gè)領(lǐng)域,相關(guān)領(lǐng)域的市場(chǎng)空間具體如下:智能家居是智能語(yǔ)音應(yīng)用的主要領(lǐng)域之一,隨著物聯(lián)網(wǎng)、人工智能等技術(shù)的快速發(fā)展,智能語(yǔ)音在家居領(lǐng)域的應(yīng)用將進(jìn)一步提速。2017-2021年中國(guó)智能家居市場(chǎng)規(guī)模不斷增長(zhǎng),2021年預(yù)估突破5,800億元,2022年將超過(guò)6,500億元,將帶動(dòng)智能語(yǔ)音市場(chǎng)的持續(xù)提升。
2020年我國(guó)智能語(yǔ)音在消費(fèi)電子領(lǐng)域的應(yīng)用市場(chǎng)規(guī)模達(dá)到43.6億元,占比近1/3。未來(lái)消費(fèi)電子仍然是智能語(yǔ)音占比最高的行業(yè)領(lǐng)域,2021年智能語(yǔ)音在消費(fèi)電子行業(yè)的市場(chǎng)規(guī)模達(dá)到約56.5億元,增長(zhǎng)率約為30%。
2021年我國(guó)智能硬件的AI語(yǔ)音助手算法的產(chǎn)值已達(dá)到34億元,預(yù)計(jì)2026年相關(guān)產(chǎn)值規(guī)模將達(dá)到155億元,2021年至2026年的CAGR為35.4%。
2020年中國(guó)智能網(wǎng)聯(lián)車市場(chǎng)滲透率已經(jīng)達(dá)到49%,根據(jù)IHSMarkit的預(yù)測(cè),2025年中國(guó)智能網(wǎng)聯(lián)車滲透率將超過(guò)75%,進(jìn)一步推動(dòng)智能語(yǔ)音在汽車領(lǐng)域的應(yīng)用。
2020年中國(guó)智能客服行業(yè)市場(chǎng)規(guī)模約為30.1億元,伴隨智能化價(jià)值深化,2025年中國(guó)智能客服市場(chǎng)規(guī)模預(yù)計(jì)將突破100億元,5年CAGR達(dá)35.8%,行業(yè)呈現(xiàn)快速增長(zhǎng)態(tài)勢(shì)。
智能語(yǔ)音語(yǔ)言行業(yè)在新技術(shù)方面的發(fā)展情況和未來(lái)發(fā)展趨勢(shì)
近年來(lái),行業(yè)內(nèi)智能語(yǔ)音語(yǔ)言算法不斷更新迭代,基礎(chǔ)性能持續(xù)增強(qiáng),通用識(shí)別準(zhǔn)確率等已不再是智能語(yǔ)音語(yǔ)言行業(yè)發(fā)展的核心挑戰(zhàn),語(yǔ)音語(yǔ)言技術(shù)逐步由以語(yǔ)音感知為主,向綜合感知、認(rèn)知、知識(shí)計(jì)算的全鏈路對(duì)話系統(tǒng)方向拓展。
關(guān)鍵基礎(chǔ)算法層面,在可控環(huán)境和簡(jiǎn)單結(jié)構(gòu)化知識(shí)源條件下,語(yǔ)音及語(yǔ)言處理技術(shù)的性能已經(jīng)表現(xiàn)良好,達(dá)到產(chǎn)業(yè)化水平,但在復(fù)雜真實(shí)環(huán)境和自然非結(jié)構(gòu)化語(yǔ)言及知識(shí)處理方面,與產(chǎn)業(yè)需求仍然有不小差距。例如,在遠(yuǎn)場(chǎng)、高噪聲、多人會(huì)議場(chǎng)景下的自由語(yǔ)音識(shí)別準(zhǔn)確率還有待提升,知識(shí)型的開放問(wèn)答和語(yǔ)義理解對(duì)話尚無(wú)通用模型。因此,在感知技術(shù)方面,業(yè)內(nèi)研究逐步轉(zhuǎn)向聚焦突破高噪聲、多干擾、端側(cè)低資源等真實(shí)復(fù)雜自然場(chǎng)景;在認(rèn)知及知識(shí)計(jì)算方面,聚焦理解式的知識(shí)問(wèn)答、對(duì)話理解及管理技術(shù),以及專業(yè)領(lǐng)域的深度知識(shí)結(jié)構(gòu)化,進(jìn)一步增強(qiáng)面向垂直領(lǐng)域信息智能化的知識(shí)圖譜、對(duì)話問(wèn)答、閱讀理解、翻譯等能力。
另一方面,個(gè)性化、場(chǎng)景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進(jìn)行智能化改造和數(shù)字化升級(jí)的普遍需求,比如個(gè)性化的聲音復(fù)刻、新語(yǔ)義領(lǐng)域的問(wèn)答對(duì)話、為保護(hù)隱私的私有化識(shí)別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語(yǔ)音語(yǔ)言處理各個(gè)領(lǐng)域的結(jié)合,也是智能語(yǔ)音及語(yǔ)言行業(yè)算法技術(shù)發(fā)展的趨勢(shì)。
1)全雙工語(yǔ)音出現(xiàn),人機(jī)交互朝著更自然、更順暢的方向發(fā)展
全雙工是通信學(xué)科中的一個(gè)術(shù)語(yǔ),意為允許數(shù)據(jù)在兩個(gè)方向上同時(shí)傳輸,應(yīng)用在智能語(yǔ)音語(yǔ)言行業(yè),即為實(shí)時(shí)的、雙向的語(yǔ)音信息的交互,這是人們進(jìn)行即興自由交互情境下的對(duì)話模式。目前市場(chǎng)上大部分產(chǎn)品只能滿足單輪交互或多輪交互,單輪交互的情景下,用戶每次都需要使用喚醒詞開啟交互,使得人機(jī)對(duì)話非常割裂;多輪交互的情景下,用戶只需一次喚醒,在機(jī)器判斷任務(wù)尚未完成時(shí),會(huì)持續(xù)的接收用戶發(fā)出的語(yǔ)音信息,待到機(jī)器判斷單次任務(wù)完成后,再綜合信息進(jìn)行分析并做出回應(yīng),但在多輪交互中機(jī)器仍不能做到接收信息和發(fā)出語(yǔ)音同步進(jìn)行。區(qū)別于單輪交互與多輪交互,全雙工可以做到“邊聽(tīng)、邊想、邊說(shuō)”,在接收語(yǔ)音信息的同時(shí)進(jìn)行思考,并實(shí)現(xiàn)動(dòng)態(tài)的預(yù)估,進(jìn)而以更快的速度進(jìn)行回答,使人機(jī)交互更自然、更流暢;同時(shí),全雙工語(yǔ)音還可做到節(jié)奏控制,根據(jù)用戶回答內(nèi)容的重要性,決定打斷還是繼續(xù)傾聽(tīng),是先完成上一個(gè)問(wèn)題還是先回答用戶的追加問(wèn)題;此外,全雙工語(yǔ)音還能進(jìn)行場(chǎng)景理解,識(shí)別用戶當(dāng)前是否在與AI進(jìn)行對(duì)話,并根據(jù)不同對(duì)象、不同場(chǎng)景進(jìn)行音量、語(yǔ)氣等方面的調(diào)節(jié)。未來(lái),智能語(yǔ)音語(yǔ)言的應(yīng)用場(chǎng)景越發(fā)多樣化,應(yīng)對(duì)的環(huán)境狀況越發(fā)復(fù)雜,全雙工語(yǔ)音的優(yōu)勢(shì)將會(huì)越發(fā)凸顯,并成為智能語(yǔ)音語(yǔ)言行業(yè)的主流交互方式。
2)優(yōu)化人機(jī)交互體驗(yàn),多模態(tài)交互成為必然趨勢(shì)
人類在交互過(guò)程中并非孤立地依據(jù)聲音、表情及動(dòng)作中的單項(xiàng)進(jìn)行溝通與交流,而是綜合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)甚至嗅覺(jué)來(lái)進(jìn)行有效的溝通。同理,要使機(jī)器做到更加逼真的“擬人化”,就需要通過(guò)語(yǔ)音、視覺(jué)、文本等信息結(jié)合的方式來(lái)推動(dòng)人機(jī)交互的優(yōu)化與升級(jí)。例如,在復(fù)雜聲學(xué)環(huán)境尤其是多人同時(shí)說(shuō)話的時(shí)候,語(yǔ)音識(shí)別性能會(huì)顯著下降,此時(shí)若引入視覺(jué)信息對(duì)講話者進(jìn)行唇語(yǔ)識(shí)別,綜合語(yǔ)音和視頻信息則可以大幅提升說(shuō)話人跟蹤和語(yǔ)音識(shí)別準(zhǔn)確率;又例如,在人機(jī)交互過(guò)程中,機(jī)器通過(guò)采集用戶的表情、說(shuō)話語(yǔ)氣,甚至腳步的頻率和急緩程度,可以分析用戶的情緒狀態(tài),以采用不同的方式推進(jìn)交互,提高人機(jī)交互的交互效率與質(zhì)量。應(yīng)對(duì)人機(jī)交互場(chǎng)景化應(yīng)用不斷拓展的市場(chǎng)需求,多模態(tài)、智能化的完整解決方案可以更好地應(yīng)對(duì)不同場(chǎng)景的復(fù)雜變化,多模態(tài)交互成為行業(yè)發(fā)展的必然趨勢(shì)。
3)芯片研發(fā)日益關(guān)鍵,端側(cè)智能與云側(cè)智能雙輪驅(qū)動(dòng)
AI深度應(yīng)用目前基于深度學(xué)習(xí)的智能算法通常運(yùn)行于具有強(qiáng)大計(jì)算能力的云計(jì)算中心,而相比于云計(jì)算,邊緣計(jì)算將資源和服務(wù)下沉到網(wǎng)絡(luò)邊緣端,從而帶來(lái)更低的帶寬占用、更低的時(shí)延、更高的能效和更好的隱私保護(hù)。隨著移動(dòng)終端設(shè)備的普及率越來(lái)越高,未來(lái)行業(yè)將逐步將人工智能模型全部或分布式的部署到資源受限的終端設(shè)備上,與云側(cè)智能協(xié)同。同時(shí),結(jié)合感知硬件和計(jì)算模組的軟硬一體化解決方案,也成為人工智能軟件算法技術(shù)落地優(yōu)化的趨勢(shì)。軟硬一體化的方案將更容易提升人工智能用戶的最終體驗(yàn),更好解決AI落地的“最后一公里”問(wèn)題。軟硬一體化的重要形態(tài)就是專用人工智能芯片。專用芯片往往是場(chǎng)景化或針對(duì)特定功能的,成本和效率大大優(yōu)于通用芯片,可以進(jìn)一步提高產(chǎn)品端側(cè)的計(jì)算效率,并提升針對(duì)特定應(yīng)用場(chǎng)景的優(yōu)化適應(yīng)能力。未來(lái),人工智能語(yǔ)音芯片的發(fā)展將進(jìn)一步推動(dòng)智能語(yǔ)音語(yǔ)言產(chǎn)品在各垂直行業(yè)領(lǐng)域商業(yè)化落地。
4)以對(duì)話交互為核心的認(rèn)知和知識(shí)計(jì)算成為智能信息服務(wù)的重要技術(shù)趨勢(shì)
基于知識(shí)交互的認(rèn)知智能是信息服務(wù)智能化的核心技術(shù),在智能客服、教育、辦公、金融、政務(wù)、醫(yī)療等各個(gè)垂直領(lǐng)域的數(shù)字化轉(zhuǎn)型中具有重要作用。在各類智能信息軟硬件爆發(fā)式增長(zhǎng)的大背景下,對(duì)話式語(yǔ)言認(rèn)知智能,尤其是對(duì)話理解和管理技術(shù),將成為感知與認(rèn)知系統(tǒng)級(jí)融合的關(guān)鍵技術(shù),極大影響用戶體驗(yàn)。另一方面,針對(duì)垂直領(lǐng)域的復(fù)雜結(jié)構(gòu)化數(shù)據(jù)庫(kù)、各類知識(shí)文檔等多種形態(tài)的原始知識(shí)源,進(jìn)行知識(shí)結(jié)構(gòu)化和知識(shí)圖譜構(gòu)建,形成可控人機(jī)理解式交互的知識(shí)源,支撐知識(shí)問(wèn)答和對(duì)話,支持人類決策,將是面向信息服務(wù)智能化的知識(shí)計(jì)算的發(fā)展方向。
5)系統(tǒng)級(jí)的大規(guī)模場(chǎng)景化柔性定制成為賦能傳統(tǒng)產(chǎn)業(yè)的關(guān)鍵
由于人工智能賦能產(chǎn)業(yè)過(guò)程中的場(chǎng)景化定制需求巨大,當(dāng)前智能語(yǔ)音語(yǔ)言行業(yè)的公司逐步由向硬件設(shè)備廠商提供單一技術(shù)授權(quán)或單點(diǎn)技術(shù)的項(xiàng)目制開發(fā)等商業(yè)模式,逐步轉(zhuǎn)向以最終用戶體驗(yàn)為目標(biāo)的輕量化需求產(chǎn)品的快速迭代、規(guī)?;ㄖ崎_發(fā)和軟硬一體化,通過(guò)提供人工智能芯片及模組、智能語(yǔ)音及語(yǔ)言技術(shù)定制接口、業(yè)務(wù)級(jí)對(duì)話技能開發(fā)以及靈活的知識(shí)資源庫(kù)等智能語(yǔ)音語(yǔ)言的全鏈路柔性定制方案,增加技術(shù)輸出的厚度,擴(kuò)大技術(shù)輸出的邊界,增加下游產(chǎn)業(yè)的粘性,形成生態(tài)優(yōu)勢(shì)。
智能語(yǔ)音語(yǔ)言行業(yè)在新產(chǎn)業(yè)、新業(yè)態(tài)方面的發(fā)展情況和未來(lái)發(fā)展趨勢(shì)
數(shù)字化轉(zhuǎn)型催生了兩個(gè)重要趨勢(shì),一是智能信息硬件的大量出現(xiàn)和快速普及,二是各類生產(chǎn)、生活、治理場(chǎng)景的數(shù)字化過(guò)程中產(chǎn)生了海量的知識(shí)信息。語(yǔ)音及語(yǔ)言技術(shù),作為連接人與智能設(shè)備、進(jìn)行知識(shí)信息服務(wù)處理的核心人工智能技術(shù),在這兩個(gè)趨勢(shì)下發(fā)展前景廣闊。近年來(lái),人工智能語(yǔ)音語(yǔ)言技術(shù)與生產(chǎn)、生活和社會(huì)治理深度融合,不斷推動(dòng)經(jīng)濟(jì)社會(huì)數(shù)字化轉(zhuǎn)型。智能語(yǔ)音語(yǔ)言技術(shù)產(chǎn)業(yè)化的程度進(jìn)一步加深,應(yīng)用場(chǎng)景不斷擴(kuò)展,在汽車、家居、金融、教育、醫(yī)療、公共衛(wèi)生、政務(wù)等領(lǐng)域均應(yīng)用廣泛,并形成了全新的產(chǎn)業(yè)鏈條。同時(shí),隨著智能語(yǔ)音語(yǔ)言技術(shù)的各項(xiàng)應(yīng)用逐漸落地,用戶對(duì)產(chǎn)品的使用逐步深化,人們對(duì)智能語(yǔ)音語(yǔ)言產(chǎn)品產(chǎn)生更多的期望,未來(lái)智能語(yǔ)音語(yǔ)言行業(yè)的發(fā)展將會(huì)更加聚焦在使用體驗(yàn)上,智能語(yǔ)音語(yǔ)言產(chǎn)品將朝著更加智能、更加人性化的方向發(fā)展,各類應(yīng)用從單向指標(biāo)的不斷優(yōu)化過(guò)渡到重視整體商業(yè)落地性能。例如,從追求語(yǔ)音識(shí)別的高準(zhǔn)確率到關(guān)注產(chǎn)業(yè)化場(chǎng)景應(yīng)用能力、整體運(yùn)行穩(wěn)定性、響應(yīng)速率等。
1)智能硬件終端
根據(jù)艾瑞咨詢的研究,2020年在我國(guó)各類智能硬件中,以本地或云端算法形式及語(yǔ)音AI芯片硬件形式提供語(yǔ)音交互能力的市場(chǎng)規(guī)模達(dá)到31.4億元,到2025年將突破138億元,2019-2025年CAGR為35.2%。隨著智能物聯(lián)網(wǎng)(AIoT)產(chǎn)業(yè)發(fā)展,到2025年,65%以上的家庭將擁有智能音箱、智能機(jī)器人、智能面板等各形態(tài)的AI管家,未來(lái)搭載語(yǔ)音交互能力的硬件設(shè)備總量將非??捎^、潛力巨大。
語(yǔ)音作為人類最便捷、自然的溝通方式,是物聯(lián)網(wǎng)人機(jī)交互的最佳入口。人工智能語(yǔ)音語(yǔ)言技術(shù)與物聯(lián)網(wǎng)相結(jié)合,使用戶可以直接通過(guò)對(duì)話與物聯(lián)網(wǎng)各類終端設(shè)備交互獲得即時(shí)服務(wù),大幅提升生活質(zhì)量。例如,智能家居領(lǐng)域,由智能家電等各類硬件、智能軟件系統(tǒng)、云計(jì)算服務(wù)構(gòu)成了家居生態(tài)圈;智能汽車領(lǐng)域,語(yǔ)音交互成為最安全便捷的車內(nèi)信息交互方式,不再局限于簡(jiǎn)單的問(wèn)路導(dǎo)航,還可全面覆蓋車主在用車環(huán)節(jié)中所涉及的使用場(chǎng)景,包括對(duì)車主的畫像分析、行為感知、車后市場(chǎng)服務(wù)的推薦和應(yīng)用等。
2)智能信息服務(wù)
隨著大量信息被數(shù)字化和知識(shí)化,智能信息服務(wù)在生產(chǎn)、生活、社會(huì)治理的各個(gè)領(lǐng)域都日益得到廣泛重視,應(yīng)用的需求不斷增長(zhǎng)。智能問(wèn)答、對(duì)話機(jī)器人、信息及知識(shí)提取、語(yǔ)義分析、知識(shí)圖譜、知識(shí)及信息搜索、機(jī)器翻譯等語(yǔ)音及語(yǔ)言技術(shù)在智能信息服務(wù)相關(guān)的系統(tǒng)中都有廣泛應(yīng)用。
企業(yè)的智能客服系統(tǒng)通過(guò)自動(dòng)人機(jī)對(duì)話交互和語(yǔ)音語(yǔ)言分析功能,提供信息查詢、問(wèn)答服務(wù)、通知互動(dòng)、服務(wù)規(guī)范化質(zhì)檢等服務(wù),減少人工成本,減輕人工工作量,減少用戶等待應(yīng)答時(shí)間,提高了企業(yè)的服務(wù)效率。醫(yī)院及健康管理方面,通過(guò)智能對(duì)話機(jī)器人的導(dǎo)診、預(yù)問(wèn)診、隨訪等服務(wù),幫助病人和醫(yī)生提升問(wèn)診和診后管理效率,推進(jìn)普惠醫(yī)療,通過(guò)醫(yī)療信息的知識(shí)結(jié)構(gòu)化和語(yǔ)言處理,為醫(yī)生提供輔助診療支撐。社會(huì)治理方面,通過(guò)語(yǔ)音語(yǔ)言技術(shù),實(shí)現(xiàn)社區(qū)信息摸排智能化。如數(shù)字網(wǎng)格員機(jī)器人的語(yǔ)音電話排查服務(wù),大大提升了流調(diào)篩查的工作效率,做好人民群眾返鄉(xiāng)、旅游、工作的信息搜集與確認(rèn),保障了基層社區(qū)工作的高效開展。
AI技術(shù)與商業(yè)落地之間存在天然鴻溝
智能語(yǔ)音語(yǔ)言技術(shù)已逐步從純技術(shù)授權(quán)方式應(yīng)用,轉(zhuǎn)向“垂直技術(shù)+應(yīng)用行業(yè)場(chǎng)景”的創(chuàng)新式發(fā)展,即從單純的識(shí)別與合成的感知能力,逐步升級(jí)至“聽(tīng)得懂、能反饋”的認(rèn)知智能,智能語(yǔ)音語(yǔ)言技術(shù)的落地應(yīng)用需要結(jié)合行業(yè)認(rèn)知和客戶需求輸出整體性、結(jié)果導(dǎo)向性的實(shí)用解決方案。在人工智能語(yǔ)音語(yǔ)言技術(shù)產(chǎn)品從研發(fā)投入到產(chǎn)業(yè)化落地的過(guò)程中,模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、準(zhǔn)確度驗(yàn)證、業(yè)務(wù)流程監(jiān)控以及適配開發(fā)等環(huán)節(jié)都有著巨大的挑戰(zhàn)。要將人工智能技術(shù)與行業(yè)知識(shí)、具體需求相結(jié)合,就要跨越每個(gè)環(huán)節(jié)涉及的轉(zhuǎn)換“鴻溝”,才能使得人工智能真正地促進(jìn)產(chǎn)業(yè)發(fā)展和生產(chǎn)力提升。具體到智能語(yǔ)音語(yǔ)言行業(yè),相較于人工智能行業(yè)其他細(xì)分領(lǐng)域,由于其定制化程度更高,規(guī)?;俣认鄬?duì)較低,其商業(yè)化落地速度較慢,跨越“鴻溝”的難度相對(duì)更大。
關(guān)鍵核心技術(shù)的突破仍面臨挑戰(zhàn)
行業(yè)內(nèi)智能語(yǔ)音語(yǔ)言算法不斷更新迭代,基礎(chǔ)性能持續(xù)增強(qiáng),通用識(shí)別準(zhǔn)確率等已不再是智能語(yǔ)音語(yǔ)言行業(yè)發(fā)展的核心挑戰(zhàn)。語(yǔ)音語(yǔ)言技術(shù)逐步由以語(yǔ)音感知為主,向綜合感知、認(rèn)知、知識(shí)計(jì)算的全鏈路對(duì)話系統(tǒng)方向拓展。
關(guān)鍵基礎(chǔ)算法層面,在可控環(huán)境和簡(jiǎn)單結(jié)構(gòu)化知識(shí)源條件下,語(yǔ)音及語(yǔ)言處理技術(shù)的性能已經(jīng)表現(xiàn)良好,達(dá)到產(chǎn)業(yè)化水平,但在復(fù)雜真實(shí)環(huán)境和自然非結(jié)構(gòu)化語(yǔ)言及知識(shí)處理方面,與產(chǎn)業(yè)需求仍然有不小差距。例如,在遠(yuǎn)場(chǎng)、高噪聲、多人會(huì)議場(chǎng)景下的自由語(yǔ)音識(shí)別準(zhǔn)確率還有待提升,知識(shí)型的開放問(wèn)答和語(yǔ)義理解對(duì)話尚無(wú)通用模型。中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟2021年12月發(fā)布的《2020-2021中國(guó)智能語(yǔ)音產(chǎn)業(yè)發(fā)展白皮書》中也指出,無(wú)監(jiān)督學(xué)習(xí)、低資源模型算法等需要突破;作為算力基礎(chǔ)的AI芯片領(lǐng)域,我國(guó)與國(guó)際先進(jìn)水平仍存在差距。另一方面,個(gè)性化、場(chǎng)景定制化、私有化部署等需求已經(jīng)成為傳統(tǒng)產(chǎn)業(yè)進(jìn)行智能化改造和數(shù)字化升級(jí)的普遍需求,比如個(gè)性化的聲音復(fù)刻、新語(yǔ)義領(lǐng)域的問(wèn)答對(duì)話、為保護(hù)隱私的私有化識(shí)別部署等。支撐這一需求的小數(shù)據(jù)遷移學(xué)習(xí)和自主學(xué)習(xí)算法及其在語(yǔ)音語(yǔ)言處理各個(gè)領(lǐng)域的結(jié)合,也是目前亟待突破的方向之一。
同時(shí),新技術(shù)的革命性突破不能只依靠單點(diǎn)技術(shù)創(chuàng)新,必須要有系統(tǒng)級(jí)創(chuàng)新突破,建立在重大核心技術(shù)突破瓶頸并達(dá)到應(yīng)用門檻的基礎(chǔ)上,深度融合技術(shù)鏈條上的各項(xiàng)關(guān)鍵技術(shù)并針對(duì)重大社會(huì)命題進(jìn)行解析和處理。只有實(shí)現(xiàn)了能夠解決社會(huì)重大問(wèn)題的系統(tǒng)級(jí)創(chuàng)新,才能推廣智能語(yǔ)音語(yǔ)言技術(shù)的大規(guī)模應(yīng)用。
? ? ? ? ?
? ? ? ? ?
AI語(yǔ)音交互技術(shù)
全鏈路語(yǔ)音及語(yǔ)言交互技術(shù)以對(duì)話為核心的全鏈路語(yǔ)音語(yǔ)言交互技術(shù)涵蓋語(yǔ)音信號(hào)處理、識(shí)別、合成、語(yǔ)言理解、問(wèn)答聊天、知識(shí)圖譜等人機(jī)信息交互閉環(huán)涉及的各個(gè)模塊級(jí)技術(shù),又包括以口語(yǔ)容錯(cuò)、對(duì)話管理、全雙工架構(gòu)等為代表的跨模塊聯(lián)合優(yōu)化技術(shù),形成了“聽(tīng)得清、能理解、有知識(shí)、會(huì)決策、善表達(dá)、反應(yīng)快”的人機(jī)智能信息交互的完整全面的技術(shù)鏈條,同時(shí)具備業(yè)界領(lǐng)先的高性能單點(diǎn)AI技術(shù)和面向最終用戶完整交互體驗(yàn)優(yōu)化的跨模塊優(yōu)化技術(shù)和系統(tǒng)架構(gòu),從而在產(chǎn)業(yè)落地上滿足各類客戶豐富復(fù)雜的綜合場(chǎng)景應(yīng)用需求。
?
主要人工智能核心算法技術(shù)具體如下:


全鏈路智能對(duì)話系統(tǒng)定制開發(fā)中臺(tái)(DUI中臺(tái))可進(jìn)行從喚醒、識(shí)別、合成到語(yǔ)義理解、對(duì)話邏輯等的全鏈路對(duì)話系統(tǒng)定制開發(fā),自動(dòng)化智能化程度高,專業(yè)技術(shù)人員和非專業(yè)業(yè)務(wù)人員均可自助定制,可快速構(gòu)建具備完整功能的、軟硬件融合的場(chǎng)景化人機(jī)對(duì)話系統(tǒng)。


智能家電語(yǔ)音語(yǔ)言交互解決方案
智能家電的發(fā)展旨在讓用戶實(shí)現(xiàn)更方便的控制和享受數(shù)字生活服務(wù)。隨著物聯(lián)網(wǎng)終端從弱智能化向強(qiáng)智能化不斷發(fā)展,智能家電產(chǎn)品的交互方式從遙控器按鍵、手機(jī)APP進(jìn)化到語(yǔ)音操控,解放了雙手,人機(jī)交互的方式愈發(fā)簡(jiǎn)單、便捷。一方面,智能家電終端從電視、音箱到空冰洗、開關(guān)面板,形態(tài)上不斷微型化、多樣化;另一方面,語(yǔ)音技術(shù)作為去中心化操控技術(shù),使得智能家電操控不再受限于固定的設(shè)備端,通過(guò)語(yǔ)音即可對(duì)任何終端設(shè)備進(jìn)行直接操控。




智能汽車語(yǔ)音語(yǔ)言交互解決方案
近年來(lái),智能汽車逐漸普及,汽車從“硬件為主”的工業(yè)產(chǎn)品,逐漸演變?yōu)椤败浻惨惑w化”的智能化終端,市場(chǎng)上主流品牌都在新車上布局AI語(yǔ)音系統(tǒng)。智能汽車語(yǔ)音語(yǔ)言交互解決方案,以車載場(chǎng)景下的人機(jī)對(duì)話交互為核心,融合智能導(dǎo)航、多媒體娛樂(lè)、車身控制、駕駛行為監(jiān)控、車況監(jiān)控等智能座艙人機(jī)交互需求,圍繞“語(yǔ)音交互智能+云端互聯(lián)服務(wù)”,改變了傳統(tǒng)車載設(shè)備以觸控、按鍵為核心的操控模式,極大改善了交互體驗(yàn),有效確保駕乘安全。
數(shù)字政企智能助理解決方案
數(shù)字政企智能助理解決方案,支持在電話、APP和智能終端等多渠道落地,能夠幫助客戶快速實(shí)現(xiàn)線上/線下服務(wù)運(yùn)營(yíng)的智能化升級(jí),實(shí)現(xiàn)降本增效?;跀?shù)字政企智能助理解決方案,客戶可以根據(jù)需求選擇適合自己業(yè)務(wù)場(chǎng)景的機(jī)器人,能夠起到替代部分傳統(tǒng)人工的作用,降低人工服務(wù)成本和壓力,并擴(kuò)大服務(wù)范疇,滿足終端用戶的不同需求。

AI模組可進(jìn)行前端信號(hào)處理,將聲音采集、麥克風(fēng)陣列技術(shù)融合一體,進(jìn)而實(shí)現(xiàn)遠(yuǎn)場(chǎng)拾音、聲源定位、語(yǔ)音喚醒、語(yǔ)音增強(qiáng)、回聲消除、語(yǔ)音打斷、通話降噪等多種功能。

? ? ? ? ?
?
?
編輯:黃飛
電子發(fā)燒友App




評(píng)論