騰訊AI Lab全年成績單:讓AI能救命也能種地
2018年是頗具意義的一年,以“Make AI Everywhere”為愿景,我們在醫療、農業和公益等AI應用領域取得不錯進展,也正在通過游戲和機器人等實驗平臺探索解決AI終極難題——通用人工智能——的道路。
展望2019年,我們將繼續通過前沿研究提升AI的認知、決策和創造力,深耕行業,擁抱消費互聯網與產業互聯網,做好“數字化助手”標配,提供更好的技術、工具與服務,為人們的日常生活和社會發展帶來更多美好便利。
以下是我們對騰訊AI Lab在2018年重點工作的回顧,也預祝大家新春安康吉祥。
行業應用科技向善
我們在 2018 年完成了一些很有意義的項目,如“圖片語音即時描述”技術,讓機器充分理解圖像內容后,將其“翻譯”成語句,讓視障者使用QQ空間時,能聽到對圖片的描述,實時了解朋友動態。通過提供這一系列信息無障礙技術,騰訊今年獲得了聯合國教科文組織頒發的“數字技術增強殘疾人權能獎”。
第二個例子是顯微鏡的進化,我們在這種古老而重要的醫療器械中加入了AI與AR技術,讓機器自動識別、檢測、定量計算和生成報告,并將檢測結果實時顯示到醫生所看目鏡中,在不打斷醫生閱片的同時及時提醒,提高醫生的診斷效率和準確度。今年我們還會繼續通過“騰訊覓影”產品深入探索AI+醫療的應用,目前圖像處理技術已用在食管癌、肺癌、糖尿病性視網膜病變等疾病的早期篩查上,語言和語音處理技術也用于智能導診和輔診上。
AI 技術落地
騰訊智能顯微鏡
我們還在“AI+農業”邁出了一小步——一個很會“種”黃瓜的AI。在荷蘭舉辦的國際AI溫室種植大賽里,我們利用傳感器和攝像頭自動收集溫室氣候、作物發育情況等環境和作物數據,再用深度學習模型計算、判斷和決策,驅動溫室的設備元件,遠程控制黃瓜生產,最后獲總比分第二、AI策略第一的成績,還開心收獲了3496公斤黃瓜。
在騰訊視頻中,我們提供了超分辨率和視頻分類的技術。此外,我們還探索了對視頻內容的深度理解、編輯與生成。比如,讓機器深度分析一個視頻,識別其中人物、物體、場景,并分析它們的關系,并在時間順序識別視頻中不同的動作和事件,產生能表達出視頻豐富語義信息的語句。
而在視頻生成上,我們研究的視頻運動信息遷移技術,在給到幾張人物A的靜止圖片后,能讓A模仿人物B的舞蹈動作,從靜止到“動”起來。
前沿難題深度探索
定義下一代的智能交互 - 3D虛擬人
我們通過多個部門的共同研究,合作推進了“多模態人機交互”這一前沿課題。我們將計算機視覺、自然語言處理、語音技術有機結合在一起,輔以一定的情緒認知、分析決策能力,賦予虛擬人看、聽、想、說的多模態輸入和輸出能力,以實現更自然、逼真、風格鮮明、千人千面的人機交互體驗。我們已經實現了整套技術方案的打通,并有望探索新的產品形式。
以游戲為實驗平臺,求解“通用人工智能”難題
游戲是 AI 研究的傳統實驗場,從2016年研發圍棋AI“絕藝”起,我們不斷利用這塊實驗沃土,探索邁向通用人工智能的道路。2018 年,我們收獲頗豐,而此類探索還將繼續下去。
我們與王者榮耀及王者榮耀職業聯賽共同探索的前沿研究項目——策略協作型AI“絕悟”——首次亮相KPL決賽,與人類戰隊(超過99%玩家)進行5V5水平測試并取得勝利。我們使用了監督學習方法,模擬人類決策方法的算法模型兼具了大局觀與微操能力,并在此基礎上研發多個有針對性的強化學習訓練模型,有效提升了AI團隊協作能力。
此外,我們的深度強化學習智能體還在《星際爭霸 II》戰勝了Level-10內置 AI,還與清華大學合作拿下了FPS射擊類游戲AI競賽VizDoom賽事歷史上首個中國區冠軍。
以機器人為載體,讓虛擬連接現實
我們還成立了企業級機器人實驗室“騰訊Robotics X”,構建AI+機器人雙基礎部門,打造虛擬世界到真實世界的載體與連接器。比如,我們從0到1實現了機械手從虛擬到現實的遷移,通過搭建滿足各種物理屬性的高逼真模擬器,支持多種強化學習算法,并能和機械臂和靈巧手的實體硬件接口兼容,通過新提出的DHER算法訓練抓娶搭積木、端茶倒水等虛擬任務。我們還將其成功遷移到了現實世界中。
另外,在新建成的騰訊深圳總部展廳里,我們還完成了“絕藝”圍棋機器人、桌上冰球和與浙江大學合作的機械狗等展示項目,體現了機器人的本體、控制、感知、決策方面的能力。
開源協同 多方合作
除了發表論文公開研究成果,我們也通過代碼和數據開源將騰訊積累的技術能力(尤其是 AI 能力)共享給整個行業,并希望以此促進行業生態的共同發展和繁榮。
2018 年 10 月,我們開源了業內最大規模的多標簽圖像數據集Tencent ML-Images,其中包含了 1800 萬圖像和11000種常見物體類別。此外我們還提供了從圖像下載和圖像預處理,到基于ML-Images的預訓練和基于ImageNet的遷移學習,再到基于訓練所得模型的圖像特征提取整個流程的代碼和模型。截至目前已在 GitHub 獲 2000 星和 2000+ 次下載。
我們還在 10 月份開源了一個大規模、高質量的中文詞向量數據集,其中包含 800 多萬中文詞匯,在覆蓋率、新鮮度及準確性上都優于之前的數據集。
11 月,我們開源了一個自動化深度學習模型壓縮與加速框架PocketFlow,其中整合了多種模型壓縮與加速算法,并能利用強化學習自動搜索合適的壓縮參數。我們希望該框架能降低模型壓縮的技術門檻,賦能移動端 AI 應用開發。
在高校合作方面,我們與麻省理工、牛津、斯坦福、港科大、清華和哈工大等全球知名高校的教授聯合研究,并通過專項研究計劃、訪問學者計劃、青年學者基金、聯合實驗室等多種方式,共探學術前沿領域,并迅速將研究應用到騰訊云、騰訊開放平臺等多個業務中。
基礎研究 推動邊界
我們基礎研究方向主要為四個:機器學習、計算機視覺、語音處理和自然語言處理。2018 年,我們有超過150 篇學術論文發表在各大頂級學術會議上,如NeurIPS、ICML、CVPR、ECCV、ACL、EMNLP、InterSpeech 和 ICASSP等,位居國內企業前列。
未來,我們將繼續關注前沿領域的研究課題,推進跨學科、多模態、交叉研究課題探索,以開放、合作和共贏的態度,不斷探索研究的邊界。
機器學習
學習能力,是區分智能機器和普通自動化機器的核心技能之一,也是邁向通用人工智能(AGI)的必備技能。我們的研究涵蓋了強化學習、遷移學習、模仿學習、優化算法、弱監督和半監督學習、對抗學習和多任務學習等。
我們探索了自動化機器學習(AutoML)的可能性,這是當前機器學習領域的前沿探索方向之一。比如,我們提出了一種基于數據分布遷移的超參優化算法[1]。該方法利用分布相似度來遷移不同數據對應的超參優化結果,從而能對新數據的超參優化起到熱啟動的效果。我們還進一步研發了FastBO算法,并發現其在醫療和游戲等多個場景上有比人工調參更好的效果。
針對多任務問題,我們提出了一種學習框架L2MT[2],能自動發掘一個最優的多任務學習模型;我們還提出了一種用學習遷移實現遷移學習的方法L2T[3],能顯著降低遷移學習的計算成本和所需的領域知識。
L2MT 框架
我們也為強化學習提出了一些改進方法,比如提出一種描述如何從環境和任務來組成強化學習策略的元規則部件神經網絡,實現了自適應于不同環境、不同任務的合成策略[4]。我們還嘗試用演示來提升強化學習的探索效果(POfD)[5]及使用聯網智能體的完全去中心化多智能體強化學習[6]。
在計算機安全和社會安全上,我們研發的自動特征學習、群分類和圖特征增強方面的算法,能成功識別和對抗黑產用戶、涉黑群體和惡意用戶(標記覆蓋率超90%),還能精準識別有信貸風險的用戶,幫助防控金融風險。
計算機視覺
計算機視覺技術有非常廣泛的應用前景,是智能醫療、自動駕駛、增強現實、移動機器人等重要應用的不可或缺的一部分。我們不斷尋找賦予機器更強大視覺能力的方法,以實時、穩健和準確地理解世界。
2018 年,我們的探索包括結合相機與其它傳感器數據實現 3D 實時定位[1]、結合傳統時空建模方法(MRF)與深度學習方法(CNN)來跟蹤和分割視頻中的物體[2],及一些在視頻描述生成任務上的新方法[3]。我們還定義了一種名為視頻重定位(Video re-localization)[4]的新任務,可在某段長視頻中查找與指定視頻語義相關片段。我們也為視頻中的運動表征提出了一種端到端的神經網絡TVNet[5]。
除了幫助機器理解世界,我們也在探索視頻生成方面的技術,比如我們提出了一種自動生成延時攝影視頻的解決方案[6],可以通過預測后續的圖像幀來呈現可能發生的動態變化。我們也探索了多階段動態生成對抗網絡(MD-GAN)[7]在這一任務上的應用。
MD-GAN 框架
語音處理
我們的語音解決方案已經在騰訊的聽聽音箱、極光電視盒子和叮當音箱等產品中得到應用。2018 年,我們又提出了一些新的方法和改進,在語音增強、語音分離、語音識別、語音合成等技術方向都取得了一定進展。
語音喚醒上,我們針對誤喚醒、噪聲環境中喚醒、快語速喚醒和兒童喚醒等問題,提出了一種新的語音喚醒模型[1],能顯著提升關鍵詞檢測質量,在有噪聲環境下表現突出,還能顯著降低前端和關鍵詞檢測模塊的功耗需求。我們還提出了一種基于 Inception-ResNet 的聲紋識別系統框架[2],可學習更加魯棒且更具有區分性的嵌入特征。
左:基準關鍵詞檢測架構 右:文本依賴型語音增強架構
語音識別上,我們的解決方案是結合了說話人特征的個性化識別模型,能為每位用戶提取并保存個性化聲學信息特征。隨用戶數據積累,個性化特征自動更新,用戶識別準確率能顯著提升。另外,我們還創新地提出了多類單元集合融合建模方案,這是一種實現了不同程度單元共享、參數共享、多任務的中英混合建模方案。這種方案能在基本不影響漢語識別準確度的情況下提升英語的識別水平。我們仍在噪聲環境、多說話人場景[3]、“雞尾酒會問題”[4]、多語言混雜等方面繼續探索。
語音合成是確保機器與人類自然溝通的重要技術。騰訊在語音合成方面有深厚的技術積累,開發了可實現端到端合成和重音語調合成的新技術。騰訊AI Lab 2018 年在語調韻律變化[5]、說話風格遷移[6]等任務上取得了一些新進展。
自然語言處理
騰訊 AI Lab 在自然語言處理方面有廣泛而又有針對性的研究,涉及文本理解、文本生成、人機對話、機器翻譯等多個方向。
我們訓練的模型在多個閱讀理解類數據集上位居前列,如CMU大學的RACE、ARC (Easy/Challenge)及OpenBookQA等。
在神經網絡機器翻譯方面,我們通過改進當前主流翻譯模型中的多層多頭自注意力機制[1]和提出基于忠實度的訓練框架[2],改善其核心的譯文忠實度低的問題。我們還針對口語翻譯中代詞缺省的問題提出了一種聯合學習方法[3],以及探索如何將外部的翻譯記憶融入神經網絡翻譯模型[4]。
我們還發布了一款AI輔助翻譯產品TranSmart[5],向人工翻譯致敬。它采用業內領先的人機交互式機器翻譯和輔助翻譯輸入法技術,配合億級雙語平行數據,為用戶提供實時智能翻譯輔助,幫助用戶更好更快地完成翻譯任務。作為筆譯工具的未來形態,目前這個產品已經進入了很多高校翻譯課堂。
我們研究了文本和對話生成,提了出一種基于強化學習框架的回復生成模型[6],對于同一個輸入能夠自動生成多個不同的回復;一種跨語言神經網絡置信跟蹤框架XL-NBT[7]在實現跨語種對話系統方面有重要的實際應用潛力(比如多語種自動客服)。此外,我們還為自動回復的多樣性對條件變分自編碼機進行了改進[8]。
基于強化學習的回復生成模型
值得一提的是我們將中國古典文化與現代技術的結合方面的探索。我們在 2018 年春節期間推出了騰訊 AI 春聯,可根據用戶提供的兩個漢字生成一副春聯。我們還探索了創造機器詩人的問題,提出一種基于對抗條件變分自編碼器的詩歌生成方法(CVAE-D)[9],在主旨一致性和用詞的新穎性上取得了不錯的進展。
展望未來
近三年時間里,騰訊AI Lab相繼成立了深圳及美國西雅圖實驗室,目前團隊有70多名頂尖AI科學家及300多位經驗豐富的工程師,專注四大研究方向。
產業落地上,AI Lab將與新成立的“騰訊Robotics X”機器人實驗室擔當前沿技術雙基礎部門,深耕產業,擁抱消費及產業互聯網,做好技術標配。
前路漫漫,道阻且長,我們將繼續前行,以科技點亮人文之光。
電子發燒友App



評論