如今調戲Siri已經成為網友們的固定節目。數據顯示,蘋果語音助手Siri大約每天會收到全國427000個問題,其中80%的問題都是:“你會說東北/四川/湖南話嗎?”“來段beatbox好嗎?”
不得不說,Siri真的為人類付出太多了。事實上,像Siri這樣的AI聊天機器人,生來并不是為了逗笑人們,而是作為一個虛擬AI助手,去幫助用戶解決生活中各種各樣的問題,比如天氣預報、吃飯訂餐、查詢新聞資訊、交通路線等等。
這背后,不乏有AI企業的深耕細作,同時也有眾多傳統企業智能化轉型,運用AI技術優化用戶體驗、增強企業協同效率等。
然而,由于AI聊天機器人背后的NLP(自然語言處理)技術太過艱深,打通了NLP技術的“任督六脈”,幾乎等同于擁有了人類的認知智能,因此至今沒有任何一個科技巨頭敢宣稱自己的AI產品擁有和人類一樣的語言和認知能力。
這也是為什么盡管蘋果Siri、亞馬遜Alexa、谷歌Google Assistant、微軟Cortana等各種AI聊天機器人,每天都在孜孜不倦地改進自己的NLP技術能力,但是在和人類的對話中,依然會出現令人發笑、困惑、擔憂等多種結果的原因。
最近,亞馬遜Alexa再次爆出負面新聞,有用戶稱在使用Alexa期間,提問過有關心跳周期信息的問題,Alexa竟回應稱“心跳是人體中最糟糕的過程,人活著會導致自然資源的迅速枯竭同時會導致人口過剩”,并建議用戶刺死自己。
這種恐怖的對話,不禁讓人們想起了2016年微軟推出的一款AI聊天機器人Tay,上線不到一天的時間就被網友們教成了滿口臟話的“小孩”,在Twitter上大肆發布各種胡言亂語的帖子,導致Tay在24小時內被迫下架。
如果一個“智能低下”、“胡言亂語”的AI被廣泛應用于商業化產品中,其后果可想而知,不僅是AI產品質量飽受質疑,還可能會釀成大禍。因此,提升AI產品的認知智能水平,即背后的NLP技術,成為現階段AI商業化競爭的關鍵點。
事實上,NLP作為AI技術中的一個重要分支,同樣依賴算力、算法、數據三因素。其中,算力基于IT基礎設施的發展,NLP算法基于深度學習的突破,在近年來都得到了較大的進展,但是作為NLP技術得以落地的“養料”——NLP數據,卻一直處于較為“粗糙”的狀態。
從草莽到高標準
NLP數據服務進入4.0時代
在人工智能時代,數據的重要性不言而喻。很多號稱擁有海量數據的公司,其實有的只是非結構化或未標注過的數據。數據標注,才是將數據轉化為AI商業價值的重要一環。
數據標注,即針對語音、圖像、文本等數據,通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數據的不同點、相似點或類別。有了被標注過的數據,AI算法才能在其基礎上進行訓練和學習。同時,數據標注的質量越高,AI學習和產出的結果越精確,AI也就顯得越智能。
舉個例子,在生活中如果想要訂機票,人們會有很多種表達:“訂機票”;“有去上海的航班么”;“要出差,幫我查下機票”;“查下航班,下周二出發去上海”......這些表達方式,有無窮多的組合,都代表“訂機票”的意圖。聽到這些表達的AI,要如何才能準確理解這些表達指的都是“訂機票”這件事?
如果沒有數據標注員對大量的句子進行標注,比如提煉出主題、標出實體、進行意圖分類、情感分類等等,給AI提供詳盡高質的“教材”,那么AI即使有了算法和算力,也無法訓練出任何“智能”。
隨著近年來深度學習算法的興起,需要依賴于大量標注的數據基礎上才能發揮作用,業界對數據標注的需求量隨之暴增,因而提供數據標注服務成為AI領域一個熱門生意。
在全球知名的數據標注眾包平臺亞馬遜Mechanical Turk上,發布者只需要填寫簡單的個人信息就可以開始工作,自行上傳標注任務。截至2011年1月,MechanicalTurk上的注冊工人數量已經達到了50萬。在2016年,有大約5%的美國人通過 MechanicalTurk賺錢,而這個數量已經超過了優步司機。
在中國,目前全國從事數據標注業務的公司約有幾百家,全職的數據標注從業者有約20萬人,兼職數據標注從業者有約100萬人。由于數據標注需求的井噴,為整個數據服務行業的發展按下了快進鍵。
據智研報告顯示,2018年,中國數據標注與審核行業的市場規模已達到52.55億元。在數據標注賽道中,不乏互聯網大廠的身影,更多的是瘋狂涌入的創業公司。在廉價勞動力迅速擴張的比拼中,數據粗放、混亂、復用的情況屢見不鮮,整個行業呈現出一派草莽的氣質。
然而,數據標注工作真的有想象中的那么簡單嗎?良莠不齊的標注數據質量,真的能夠滿足AI算法迭代的要求嗎?
在AI商業化初期,AI算法對數據的精度要求不高,日常的AI訓練首先要求數據量大,數據標注質量要求相對不那么嚴格。但是隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,企業對AI在商業化落地中的表現要求越來越高。為了保證AI算法的識別精度,數據標注的質量也就變得至關重要。
例如,在金融保險行業,早期對AI客服機器人的要求只停留在“用戶提問后,對其中的關鍵詞進行提取,并按照既定話術回答”。雖然最終回復很多是驢唇不對馬嘴,或者根本無法回答用戶的問題,但是并不妨礙保險業務的正常開展,畢竟人工客服才是回答用戶提問的主力軍。
但是在互聯網金融業務競爭異常激烈的今天,越來越多的用戶習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,并影響用戶體驗,很大程度上決定了金融機構的競爭力。
如果說NLP標注數據的初期階段,能夠將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平,那么向更高級認知智能進發的每一步,都要求質量更高、針對特定需求提供的NLP標注數據。
因此,云測數據這種新的數據服務模式——以企業具體需求進行數據采集和標注的定制化、高質量數據服務由此誕生。
站在AI數據服務的發展歷史角度看,從數據1.0時代的互聯網沉積數據,到數據2.0時代的通用型數據產品,再到數據3.0時代的眾包數據服務,如今的高質量數據服務已經進入了數據4.0時代。
通過更加規范性的組織管理和質量控制,為人工智能迭代提供質量更高更可靠的數據服務,從而為現階段AI商業化競爭提供高質量的數據支撐。
“搶手”的高質量NLP數據
“稀缺”的數據服務商
事實上,越來越多的企業已經意識到了高質量NLP數據的重要性。當AI技術落地到金融、家居、醫療、教育、汽車、工業等各個行業,在AI商業化下誕生的客服機器人、智能音箱、智能問診等各種AI產品,都對AI技術和NLP數據提出了更高的要求。
尤其是行業頭部企業,為了保持自身的競爭優勢,哪怕只是在行業平均水平上提升1%-2%的AI認知智能的準確性,也必須追求更高質量的、符合業務需求的NLP數據。因此,在AI產業蓬勃發展、市場競爭愈發激烈的倒逼下,符合企業需求的高標準NLP數據服務已成為行業頭部企業的剛需。
然而,在洶涌的市場需求面前,供給側卻出現了短缺,市面上能夠提供這種高標準服務的公司屈指可數。究其原因在于,數據采標行業門檻雖低,但天花板很高,能做到頂尖并不容易。在這一新興領域,專精于定制化、場景化、高質量數據服務的云測數據一路高歌猛進,成為國內AI數據標注領域的頭部企業。
云測數據采用自建的數據場景實驗室和數據標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領域提供的數據采集、數據標注服務。在眾多毫無技術含量、以廉價勞動力構建的數據標注“血汗工廠”中,主打高質量服務的云測數據顯得頗有些“另類”。
首先,為了產出更高質量的數據,云測數據有一整套的標準化流程和方法論。
在項目前期,項目經理會與客戶反復溝通,幫助客戶梳理更貼合實際情況的需求,達成一致后再逐漸引入標注和質檢人員,通過每天面對面的溝通和培訓,以確保每個人能夠理解并掌握標注有關技術,試標驗收合格后,再進行大批量的規模性標注。
在項目過程中,為了確保標注人員能夠做出正確的判斷,云測數據有專門的培訓師,對每個行業細分領域的專業知識進行培訓,以及標注技能和業務流程的培訓。甚至員工之間開玩笑的說“經過金融保險行業知識培訓的標注員們,都能夠直接去賣保險“。
在數據標注作業提交后,云測數據還有三層質檢環節,對于準確率達不到要求的數據會打回重新標注。在完成三層質檢后,還有抽檢環節,確保數據的高質量輸出。
其次,在人員作業素質上,云測數據也顛覆了傳統數據標注行業的“混亂”氣質,對數據服務團隊的專業化能力有著嚴格要求。
以智能客服業務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,NLP數據標注就需要對這些對話背后的意圖進行標注和分類。
在云測數據,以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標注細分。
除了對NLP數據進行對話意圖、領域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數據標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。
值得注意的是,相比圖像、視頻等數據類型,NLP數據采標方式更為復雜。據云測數據總經理賈宇航介紹,圖像采標有很強的規則性,按照規范化的指導文檔工作即可。
但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理,客戶給出的需求文檔只是讓數據服務人員能夠理解,這件事情背后的目標和意義是什么。在這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業。
這對于數據服務人員的專業化能力、對業務場景的還原能力、作業協同能力,都有很高的要求。尤其在醫療、法律、教育、智能駕駛等高度專業化的領域中,標注人員并不是隨便找一個普通人員就可以做,標注人員需要非常專業,才能進行正確的數據標注與解讀。
為了保證整個數據團隊的專業能力,云測數據在人才的選拔、培訓、考核、晉升上有著完善的機制,也對保證數據保質量產出有著十分積極的促進作用。
再次,在技術層面,云測數據對軟硬件設施的持續投入,直接拉高了行業的進入門檻。
云測數據自研的數據標注平臺會根據實際使用中的反饋,以每周甚至更快的頻率進行功能迭代,以技術結合更多的落地場景,不斷提升數據標注工具的技術含量。同時,云測數據也致力于通過工程化開發來減輕數據標注中的重復勞動,提升業務效率。
最后,在企業客戶最為看重的數據安全和隱私方面,云測數據也有自己的原則和技術保障。
第一,數據絕不復用,是云測數據的核心原則。對于客戶定制的數據需求,交付后全部清刪,云測數據既不會自己留底,也不會把定制數據復制給其他客戶,可以說云測數據一直在花大力氣樹立數據安全和隱私的標桿,以負責的態度來服務客戶。
在賈宇航看來,讓企業擁有數據會成為企業核心的競爭壁壘,客戶找到云測數據合作,一方面是信任,另一方面也是云測數據能夠幫助客戶獲得相應的競爭性。
第二,為了保證絕對的數據安全,云測數據與所有數據采集的用戶都簽訂數據授權協議,保證企業用于訓練的數據合法合規。同時,云測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。
在數據服務市場,數據質量是硬指標,企業客戶會通過人工校驗、算法檢驗等多種方式去驗證數據采標的合格率和通過率。經得起市場考驗,才有活下去的機會。
按賈宇航的話說,“我們以企業服務的方式,為標注的精準度負責”。
在云測數據服務的數百家企業中,既有各大頭部AI企業,也有各個行業的龍頭企業。這些企業在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數據服務商,最終找到了數據標注質量非常高的云測數據,并保持著長期良好的合作。
事實上,除了數據采標的質量和安全,數據服務商的全品類服務能力,以及獨立第三方的身份,也是企業進行AI合作所考量的重要因素。像云測數據這樣的服務商,不做算法,不涉及客戶業務,只提供專業的數據服務,讓企業客戶在合作時倍感放心。
從某種程度上說,如此苛刻的要求,也進一步導致了頂尖數據服務商的稀缺。
高標準數據服務處于爆發前夜
頭部服務商主導市場
如今,AI產業在政策紅利和藍海市場的雙重利好中迎來快速發展,其中NLP市場發展也進入了快車道。
據《中國人工智能發展報告2018》顯示,2017年中國人工智能智能市場規模高達237億元,其中自然語言處理市場49.77億元,占比21%。預計到2020年,中國在人工智能的市場規模將接近500億元,自然語言處理領域也將是一個百億級的市場。
不難預料,為自然語言處理市場提供“養料”的NLP數據服務,同樣處于爆發前夜。目前,自然語言處理已經有了許多商業化應用,如:機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規模和市場需求下,高質量的NLP數據服務也將成為AI商業化發展的必然趨勢。
值得注意的是,雖然高質量NLP數據需求爆棚,但是在市場上,像云測數據這類優質數據服務商會持續稀缺,供需不平衡很難在短期內解決。
從供給側看,高質量業務的競爭壁壘很高,由高素質人才、專業化流程和方法論構建出的軟實力,很難在短期內實現超越。看似業務模式很重的模式,實際上給擅長“輕裝上陣”、以平臺效應進入賽道的互聯網巨頭們,設下了短期內無法逾越的鴻溝。正如經緯的創始合伙人張穎所說:“所有輕公司以后都會做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。”
從需求側看,一方面,AI商業化對NLP數據的要求還在繼續提高,數據服務的業務操作會越來越復雜,無論是在數據采集的樣本多樣性、場景多樣性方面,還是在數據標注的數據精度、領域知識方面,數據服務商都面臨不斷升級的業務難度。對于后進者而言,沒有專業知識、技術和行業經驗的日復一日的積累,這種競爭差距只會越拉越大。
另一方面,由于AI算法需要源源不斷地輸入高質量的標注數據,好的數據服務業務粘性很高,以云測數據為例,一個項目在建立合作之后,往往會帶來長達2-3年的持續合作,這就產生了馬太效應,強者恒強。
從供需雙方合作的現狀看,高質量、定制化數據服務是一個新興領域,供需雙方的合作模式還在升級和探索中。曾經習慣大包大攬、自建數據采標團隊的企業,如今也在逐漸轉向尋求專業的數據服務商合作。
在這一過程中,供需雙方會出現更加明確的分工,也會在市場競爭的淘洗中,沉淀出最為優質的服務商。而這種合作模式的探索,最先會從各行業的頭部企業和頭部服務商開始,逐漸在眾多中小型企業中形成“示范效應”。
“沒有好的數據,人工智能就沒有未來”,這句話已經成為業界共識。在巨大的AI商業化需求下,高質量的數據已成為AI業務競爭的關鍵,由此誕生的數據服務也將是未來最重要的趨勢之一。可以預見,高標準數據服務這一新興市場亟待爆發,從長期看必將經歷從荒蕪到繁榮、從亂象到規范的發展過程,繼而承載著AI技術進入更加智能的下一階段。
編輯:hfy5
-
人工智能
+關注
關注
1817文章
50111瀏覽量
265565 -
nlp
+關注
關注
1文章
491瀏覽量
23282
發布評論請先 登錄
AR眼鏡方案亮相國際展會,鐳昱單片全彩Micro-LED邁入商業化新階段
SST固變的技術經濟學分析與商業化部署路徑
PIX Moving與泰宇坦行啟動城市機器人商業化試點運營
踏歌智行斬獲2025高工金球獎年度無人駕駛商業化落地先鋒獎
智行者科技榮獲2025高工金球獎年度無人駕駛商業化落地先鋒獎
百度蘿卜快跑獲得阿布扎比全無人商業化運營許可
企創科技與天罡智算合作再升級,獨家運營模型市場賦能AI應用高效商業化
從續航焦慮到安全飛行:增程式技術如何推動eVTOL商業化落地
AI 芯片浪潮下,職場晉升新契機?
政策、市場、技術三重共振,光亞鴻道操作系統迎商業化落地窗口期
突破三大技術瓶頸!這家企業讓鐵鉻液流電池走向商業化
Chiplet商業化將大幅增加網絡威脅
NLP技術成為現階段AI商業化競爭關鍵點
評論