97精品国产97久久久久久免费-百度,jiZZ久久精品永久免费,亚洲精品久久久久中文字幕二区

（文章來源：DeepTech）

近年來，隨著深度學(xué)習(xí)的迅速發(fā)展和廣泛的潛在應(yīng)用，基于計(jì)算機(jī)視覺的唇讀技術(shù)受到越來越多的關(guān)注，它在實(shí)踐中有許多重要的應(yīng)用，如輔助語音識(shí)別、生物認(rèn)證、幫助聽障人士等。但是唇讀任務(wù)的難度非常高，一個(gè)關(guān)鍵點(diǎn)是如何有效地獲取唇部的運(yùn)動(dòng)信息，同時(shí)抵抗由姿勢、光線變化引起的識(shí)別困難，講話人的外貌、講話速度變化等干擾因素，此外，如何把唇語圖像特征與詞匯文本進(jìn)行精確關(guān)聯(lián)或者區(qū)分同音詞也挑戰(zhàn)重重。

來自浙江工業(yè)大學(xué)、中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室以及中國科學(xué)院計(jì)算技術(shù)研究所的研究人員針對這些問題，提出在局部特征層和全局序列層引入互信息約束，以增強(qiáng)唇部視覺特征與語音內(nèi)容的關(guān)系。通過在一些主流數(shù)據(jù)集上測試，該團(tuán)隊(duì)提出的方法有望同時(shí)具有較好的鑒別能力和魯棒性，以實(shí)現(xiàn)有效的唇讀。

唇讀領(lǐng)域有一個(gè)重要技術(shù)分支即詞匯級唇讀，對于該任務(wù)，需要用單個(gè)單詞標(biāo)簽對每個(gè)輸入視頻進(jìn)行注釋，盡管在同一視頻中也存在其他單詞，如上圖所示：（a）中的視頻樣本總共包括 29 幀，被注釋為 “ABOUT”，但是單詞“ABOUT” 的實(shí)際幀僅包括時(shí)間步驟 T＝1219 的幀，這個(gè)間隔前后的幀分別對應(yīng)于單詞是 “JUST” 和“TEN”，而不是“ABOUT”。在基于唇語視覺的研究中，我們總是很難劃分一個(gè)單詞的確切邊界。

這種特性要求一個(gè)好的唇讀模型能夠?qū)W習(xí)到同一個(gè)詞標(biāo)簽下不同視頻中反映的潛在但一致的特性，從而能夠更多地關(guān)注有效的關(guān)鍵幀，而較少關(guān)注其他無關(guān)幀。除了不精確的詞匯邊界挑戰(zhàn)外，對應(yīng)于同一個(gè)詞標(biāo)簽的視頻樣本總是具有極大的多樣化和外觀變化，如（b）所示，所有這些特性都要求唇讀模型能夠抵抗序列中的噪聲，從而在不同的語音條件下捕獲一致的潛在模式。

同時(shí)，由于唇部動(dòng)作的有效面積有限，不同的詞在說話過程中可能表現(xiàn)出相似的現(xiàn)象。特別是，同音詞的存在，不同的詞看起來可能相同或非常相似，增加了許多額外的困難，這些屬性要求模型能夠發(fā)現(xiàn)與幀級別中不同單詞相關(guān)的細(xì)粒度差異，以便區(qū)分每個(gè)單詞。為了解決上述問題，研究人員在不同層次上引入了互信息最大化（MIM），以幫助該模型學(xué)習(xí)魯棒性和區(qū)分性表示，從而實(shí)現(xiàn)有效的唇讀。

一方面，通過施加局部互信息最大化約束（LMIM）來約束每個(gè)時(shí)間步產(chǎn)生的特征，使其與語音內(nèi)容之間具有很強(qiáng)的相關(guān)性，從而提高了模型發(fā)現(xiàn)精細(xì)的嘴唇動(dòng)作的能力，以及發(fā)音相似的單詞之間的細(xì)微差別，比如 “spend” 和“spending”；另一方面，引入了全局序列水平上的互信息最大化約束（GMIM），使得模型能夠更加注意區(qū)分與語音內(nèi)容相關(guān)的關(guān)鍵幀，而且在說話過程中出現(xiàn)的各種噪音也較少。

此外，GMIM 迫使模型學(xué)習(xí)不同樣本中同一個(gè)詞標(biāo)簽的潛在一致全局模式，同時(shí)對姿勢、光照和其他不相關(guān)條件的變化具有魯棒性；LMIM 可增強(qiáng)每個(gè)時(shí)間步與單詞相關(guān)的細(xì)粒度運(yùn)動(dòng)，進(jìn)一步增強(qiáng)不同單詞之間的差異。通過將這兩類約束結(jié)合起來，模型可以自動(dòng)發(fā)現(xiàn)和區(qū)分目標(biāo)詞的有效重要幀，而忽略其他無關(guān)幀，進(jìn)一步提高了識(shí)別的精準(zhǔn)度。

最后，團(tuán)隊(duì)在兩個(gè)大規(guī)模的單詞級唇讀數(shù)據(jù)集 LRW 和 LRW-1000 上與同行提出的主流唇語識(shí)別模型方法做了對比評估，這兩個(gè)數(shù)據(jù)集的樣本都是從各種不同的電視節(jié)目中收集的，并且演講條件也有很大的變化，涵蓋了包括燈光條件、分辨率、姿勢、性別、化妝等在內(nèi)的多種說話條件。

LRW 于 2016 年發(fā)布，包括 500 個(gè)單詞的唇形樣本，1000 多個(gè)演講者，訓(xùn)練集中的實(shí)例數(shù)達(dá)到 488766 個(gè)，驗(yàn)證和測試集中的每個(gè)實(shí)例數(shù)為 25000 個(gè)；LRW-1000 數(shù)據(jù)集則是一個(gè)大規(guī)模的自然分布的字級基準(zhǔn)數(shù)據(jù)集，總共有 1000 個(gè)中文詞匯，總計(jì)大約 718018 個(gè)樣本實(shí)例，持續(xù)時(shí)間約 57 小時(shí)，不過該數(shù)據(jù)集旨在覆蓋不同語音模式和成像條件下的自然變化，以納入實(shí)際應(yīng)用中遇到的挑戰(zhàn)。

在 LRW 數(shù)據(jù)集上，引入 LMIM 之后，在基線準(zhǔn)確率基礎(chǔ)上提高了約 1.19%，LMIM 有望為主要任務(wù)捕獲更具區(qū)分性和細(xì)粒度的特征，同時(shí)引入 GMIM 則把精度提高到了 84.41%，主要得益于其對不同幀的不同關(guān)注。

不過，在 LRW-1000 數(shù)據(jù)集上因其語音條件變化較大，包括燈光條件、分辨率、演講者年齡、姿勢、性別、化妝等，此前行業(yè)最佳測試結(jié)果僅為 38.19%。在這個(gè)數(shù)據(jù)集上獲得良好的識(shí)別效果仍是一個(gè)挑戰(zhàn)，新的模型方式獲得了 38.79% 的識(shí)別精度，略微優(yōu)于現(xiàn)有的最新結(jié)果。

結(jié)果表明，該團(tuán)隊(duì)提出的方法在不使用額外數(shù)據(jù)或額外的預(yù)訓(xùn)練模型的情況下，在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上相比其他唇語識(shí)別模型，呈現(xiàn)出一種新的實(shí)時(shí)性能狀態(tài)。此外，團(tuán)隊(duì)表示，該方法還可以很容易地修改為其他任務(wù)的模型，從而為其他任務(wù)的研究提供一些有意義的見解。
（責(zé)任編輯：fqj）

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)

計(jì)算機(jī)

+關(guān)注

關(guān)注
19

文章
7809

瀏覽量
93225
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5599

瀏覽量
124406

搜索歷史

中國團(tuán)隊(duì)將計(jì)算機(jī)“詞匯級唇讀”精度提高到84.41%

評論