谷歌I/O 2018正如火如荼地進(jìn)行著。今年大會(huì)吸引了超過6000人前來現(xiàn)場(chǎng),除了提前幾小時(shí)就排好的長(zhǎng)隊(duì),會(huì)場(chǎng)外的交通也早早陷入癱瘓。據(jù)不少勤奮早起的自媒體同行的凌晨報(bào)道,谷歌I/O 2018的亮點(diǎn)主要有以下幾個(gè):
深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用;
Google Assistant:看得見、聽得到、會(huì)對(duì)話、會(huì)打電話的新一代谷歌個(gè)人助理;
TPU 3.0:性能是TPU 2.0的8倍;
Android P:智能化的手機(jī)操作系統(tǒng),能利用機(jī)器學(xué)習(xí)節(jié)電、調(diào)節(jié)亮度,更大程度貼合用戶使用習(xí)慣。
其中,Google Assistant電話功能背后的技術(shù)是Google Duplex,在大會(huì)上發(fā)布完畢后,Google AI(原Google Research官博)就發(fā)表了Google工程副總裁兼首席工程師Yaniv Leviathan的一篇介紹文章。
Gmail已成“精”
以下是論智對(duì)博客的編譯。
人類與計(jì)算機(jī)互動(dòng)的一個(gè)長(zhǎng)期目標(biāo)是使人們能與計(jì)算機(jī)自然對(duì)話,就像普通人之間的對(duì)話一樣。近年來,特別是隨著深度神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,我們目睹了計(jì)算機(jī)在理解、生成自然語言上的“革命性”能力提升。但盡管如此,即便是當(dāng)今最先進(jìn)的AI系統(tǒng),它還是不能很好地理解自然語言。舉個(gè)例子,如今自動(dòng)電話客服系統(tǒng)所使用的技術(shù)還停留在努力識(shí)別簡(jiǎn)單的單詞和命令上,它們不參與對(duì)話流程,如果聽不懂客戶說話內(nèi)容,它們會(huì)強(qiáng)制要求對(duì)方調(diào)整表述,而不是進(jìn)行自我調(diào)整。
所以今天,谷歌宣布推出Google Duplex,一種能在電話中用自然語言完成“現(xiàn)實(shí)世界”任務(wù)的技術(shù)。它目前已經(jīng)能完成一些特定任務(wù),如安排某些類型的預(yù)約。這類工作要求系統(tǒng)能做到自然對(duì)話,就像人與人正常溝通一樣,而無需強(qiáng)制對(duì)方適應(yīng)機(jī)器。
Google Duplex的適用空間非常狹窄,這也使它能起作用的一大原因。研究人員提出的一個(gè)關(guān)鍵思路就是把它限制在一些狹窄的封閉域中,讓AI進(jìn)行有限地廣泛探索。當(dāng)Duplex深度某領(lǐng)域后,它才能學(xué)會(huì)自然對(duì)話,也就是說,它不能進(jìn)行一般對(duì)話。
聽起來都很自然,它們都是發(fā)生在計(jì)算機(jī)和真人店家之間的對(duì)話。
Google Duplex技術(shù)的自然性可以讓人們的對(duì)話體驗(yàn)更加舒適。考慮到谷歌向來很重視用戶和企業(yè)對(duì)服務(wù)的良好體驗(yàn),因此產(chǎn)品的透明度非常關(guān)鍵。這也是本文反復(fù)強(qiáng)調(diào)Google Duplex目前只適用于部分預(yù)約場(chǎng)景的原因。
進(jìn)行自然對(duì)話
AI在自然對(duì)話方面有幾個(gè)難點(diǎn):一是自然語言難以理解,二是難以模仿自然行為,三是用戶期待更快的回應(yīng),四則是用合適的語調(diào)生成自然的聲音很困難。
當(dāng)人們彼此交談時(shí),他們說出的話比人和計(jì)算機(jī)的對(duì)話要復(fù)雜得多。他們會(huì)經(jīng)常在話說到一半的時(shí)候糾正表述,而且往往表達(dá)得啰嗦、語法不嚴(yán)謹(jǐn)、嚴(yán)重依賴上下文。他們還喜歡用寬泛的表述,有時(shí)在一個(gè)句子里就能連用一大串:
所以……額……星期二到星期四,我們的開門時(shí)間是11點(diǎn)到14點(diǎn),然后16點(diǎn)到19點(diǎn)。然后星期五、星期六、星期天,我們……星期五和星期六我們11點(diǎn)到21點(diǎn)開門,星期天我們13點(diǎn)到21點(diǎn)開門。
比起機(jī)器,人類在用自然語言對(duì)話時(shí)語速非常快,再加上口齒不清、錯(cuò)詞率更高,因此常規(guī)的語音識(shí)別也會(huì)識(shí)別困難。在電話通話中,由于背景噪聲大,音質(zhì)不佳,這樣的問題就更嚴(yán)重了。
而在較長(zhǎng)的談話中,相同的句子可以根據(jù)上下文具有非常不同的含義。例如在預(yù)約場(chǎng)景下,“Ok for 4”可以同時(shí)表示時(shí)間(4點(diǎn))和人數(shù)(4人)。如果AI要理解這一點(diǎn),它必須上溯幾個(gè)句子找根據(jù),但這一過程會(huì)因?yàn)殡娫捦ㄔ捀咚降淖皱e(cuò)誤率而變得相當(dāng)復(fù)雜。

決定要說什么是一個(gè)關(guān)于對(duì)話任務(wù)和對(duì)話狀態(tài)的函數(shù)。此外,圍繞自然對(duì)話,Google Duplex也參考了一些常見的做法——其中包括闡述(elaboration,“下周五。”“啥時(shí)候?”“下個(gè)禮拜五,18號(hào)!”)、同步(sync,“你聽得清嗎?”)、中斷(interruption,“號(hào)碼是212……”“你能再說一遍嗎?”)、暫停(pause,“你能等一會(huì)兒?jiǎn)幔俊盵等待]“謝謝!”——等待1秒和等待2分鐘含義不同)。
認(rèn)識(shí)Duplex
Google Duplex在對(duì)話上的自然表現(xiàn)主要?dú)w功于這4方面的進(jìn)步:理解、交互、時(shí)機(jī)和交流。
它的核心是一個(gè)專用于解決自然對(duì)話問題的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),在TensorFlow Extended (TFX)平臺(tái)上完成構(gòu)建,使用的訓(xùn)練數(shù)據(jù)來自匿名電話會(huì)話數(shù)據(jù)語料庫(kù)。該網(wǎng)絡(luò)有多個(gè)輸入,包括原音頻特征、把原音頻輸入Google自動(dòng)語音識(shí)別(ASR)技術(shù)后的輸出、上下文、對(duì)話的參數(shù)(例如預(yù)約的所需服務(wù)或當(dāng)前時(shí)間)等,研究人員為每種任務(wù)分別訓(xùn)練了一些模型,但語料庫(kù)是跨任務(wù)共享的。最后,他們又用TFX中的超參數(shù)優(yōu)化進(jìn)一步改進(jìn)了模型。

原音頻經(jīng)ASR系統(tǒng)處理后輸入網(wǎng)絡(luò),網(wǎng)絡(luò)最終的輸出經(jīng)TTS系統(tǒng)轉(zhuǎn)為音頻
Duplex處理“中斷”、“闡述”以及對(duì)“同步”的回應(yīng):
聽起來很自然
Google Duplex組合使用文本到語音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)控制語調(diào)。
由于在對(duì)話中加入了“嗯”“呃”等詞匯,系統(tǒng)的回應(yīng)聽起來更自然。但這其實(shí)是TTS連接兩個(gè)音調(diào)不同的聲音或正在等待合成時(shí)使用的小障眼法,是一種自然的表示問題正在受理中的狀態(tài)(人們也經(jīng)常這么做)。經(jīng)過用戶研究,研究人員發(fā)現(xiàn)這種反應(yīng)能在不利的對(duì)話情景下給對(duì)方帶來熟悉、自然的感覺。
此外,Google Duplex在回應(yīng)速度方面也比較符合用戶期望。當(dāng)人們說完一件簡(jiǎn)單的事后,比如“hello?”,他們希望得到及時(shí)的回復(fù),對(duì)回復(fù)延遲也比較敏感。如果系統(tǒng)檢測(cè)到這種情況,它會(huì)馬上切換成更快、精度更低的模型來工作。在極端情況下,Google Duplex甚至都不會(huì)調(diào)用RNN,而至直接使用最快的近似值(通常會(huì)帶各種表示猶豫的詞匯,人類面對(duì)這種事情也會(huì)有類似的反應(yīng))。這種做法使系統(tǒng)的響應(yīng)延遲能小于100毫秒。
有趣的是,研究人員發(fā)現(xiàn),這種表達(dá)上的拖延有利于使對(duì)話更自然——例如在回復(fù)一個(gè)非常復(fù)雜的句子時(shí),這種“呃呃啊啊”的做法有奇效。
系統(tǒng)操作
Google Duplex系統(tǒng)能夠應(yīng)對(duì)復(fù)雜對(duì)話,并且能完全自主地完成絕大部分任務(wù),無需人工干預(yù)。該系統(tǒng)具有自我監(jiān)控功能,可以識(shí)別無法自動(dòng)完成的任務(wù)(例如,安排異常復(fù)雜的預(yù)約)。面對(duì)這種情況時(shí),它會(huì)主動(dòng)向施令者發(fā)出信號(hào)。
為了在新領(lǐng)域訓(xùn)練系統(tǒng),研究人員使用的是實(shí)時(shí)監(jiān)督訓(xùn)練。和其他訓(xùn)練任務(wù)一樣,在這些實(shí)驗(yàn)中,Google Duplex也會(huì)有一個(gè)充當(dāng)“教師”的經(jīng)驗(yàn)豐富的模型為充當(dāng)“學(xué)生”的模型提供指導(dǎo),確保后者執(zhí)行任務(wù)的的水平最終能和自己一致。通過監(jiān)督“學(xué)生”在新場(chǎng)景通話中的表現(xiàn),“教師”能根據(jù)需要實(shí)時(shí)影響“學(xué)生”的行為,直到它的行為滿足系統(tǒng)預(yù)期。
對(duì)于企業(yè)和用戶
經(jīng)常需要預(yù)約的企業(yè)可以從Google Duplex身上獲益,有了這樣一個(gè)智能助理,企業(yè)就無需額外安排指導(dǎo)人員,也不用為培訓(xùn)員工煞費(fèi)苦心。Google Duplex還能提醒即將到期的預(yù)約項(xiàng)目,方便他們參加、取消或重新安排。
此外,一些用戶會(huì)經(jīng)常致電企業(yè)查詢網(wǎng)上無法獲得的信息(假期營(yíng)業(yè)時(shí)間)。Google Duplex可以幫助企業(yè)應(yīng)付這些同類電話,并在網(wǎng)上及時(shí)更新信息。
對(duì)于個(gè)人用戶,Google Duplex可以讓生活更方便。如果想打預(yù)約電話,他們只需給智能助理下指令就能安心處理其他事情,通話過程在后臺(tái)進(jìn)行,安靜無聲,無需參與。

它的另一個(gè)好處是Duplex能夠以異步方式與服務(wù)提供商進(jìn)行授權(quán)通信,例如,在非工作時(shí)間和對(duì)方聯(lián)絡(luò)。它還可以幫助解決殘障人士的不便和語言障礙問題,例如聽力障礙的用戶或不會(huì)說當(dāng)?shù)卣Z言的用戶可以把通話任務(wù)交給Duplex,讓它幫忙執(zhí)行任務(wù)。
今年夏季,谷歌將在Google Assistant中測(cè)試Google Duplex,屆時(shí)它的功能包括預(yù)約餐廳、預(yù)約美發(fā)和跟老板請(qǐng)假。
Google Duplex負(fù)責(zé)人Yaniv Leviathan和該項(xiàng)目的工程經(jīng)理Matan Kalman通過Duplex打電話預(yù)訂了一頓飯
讓人們和技術(shù)能自然而然地互動(dòng),這是谷歌長(zhǎng)久以來的承諾,而Google Duplex向這個(gè)方向邁出了第一步。
-
谷歌
+關(guān)注
關(guān)注
27文章
6254瀏覽量
111373 -
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301365
原文標(biāo)題:Google Duplex:真假難辨的電話AI系統(tǒng)(附音頻)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
當(dāng)谷歌自己發(fā)電,AI 系統(tǒng)會(huì)回到基礎(chǔ)工程嗎?
谷歌評(píng)論卡,碰一碰即可完成谷歌評(píng)論 #谷歌評(píng)論卡 #NFC標(biāo)簽 #nfc卡
泰凌微:布局端側(cè)AI,產(chǎn)品支持谷歌LiteRT、TVM開源模型
vivo攜手Google Cloud推動(dòng)智能手機(jī)邁入AI新時(shí)代
華曦達(dá)亮相谷歌云AI亞洲峰會(huì),AI Home業(yè)務(wù)高增長(zhǎng)引領(lǐng)發(fā)展新征程
谷歌查找我的設(shè)備配件(Google Find My Device Accessory)詳解和應(yīng)用
AI賦能谷歌Chrome與Web工具全面升級(jí)
谷歌AI模型點(diǎn)亮開發(fā)無限可能
Google Fast Pair服務(wù)簡(jiǎn)介
無需聯(lián)網(wǎng)!AI眼鏡推出實(shí)時(shí)翻譯功能 #AI眼鏡 #智能眼鏡 #黑科技 #晶揚(yáng)電子
Google推出第七代TPU芯片Ironwood
谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命
谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理的 AI 模型新引擎?
NVIDIA攜手谷歌云助力企業(yè)引入代理式AI
英偉達(dá)GTC2025亮點(diǎn):NVIDIA、Alphabet 和谷歌攜手開啟代理式與物理AI的未來
谷歌推出電話AI系統(tǒng)Google Duplex
評(píng)論