国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從草莽到高標準,NLP數據服務進入4.0時代

SUYb_GeWu_IOT ? 來源:物聯網資本論 ? 2020-05-06 17:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今調戲Siri已經成為網友們的固定節目。數據顯示,蘋果語音助手Siri大約每天會收到全國427000個問題,其中80%的問題都是:“你會說東北/四川/湖南話嗎?”“來段beatbox好嗎?”

不得不說,Siri真的為人類付出太多了。事實上,像Siri這樣的AI聊天機器人,生來并不是為了逗笑人們,而是作為一個虛擬AI助手,去幫助用戶解決生活中各種各樣的問題,比如天氣預報、吃飯訂餐、查詢新聞資訊、交通路線等等。

這背后,不乏有AI企業的深耕細作,同時也有眾多傳統企業智能化轉型,運用AI技術優化用戶體驗、增強企業協同效率等。

然而,由于AI聊天機器人背后的NLP(自然語言處理)技術太過艱深,打通了NLP技術的“任督六脈”,幾乎等同于擁有了人類的認知智能,因此至今沒有任何一個科技巨頭敢宣稱自己的AI產品擁有和人類一樣的語言和認知能力。

這也是為什么盡管蘋果Siri、亞馬遜Alexa、谷歌Google Assistant、微軟Cortana等各種AI聊天機器人,每天都在孜孜不倦地改進自己的NLP技術能力,但是在和人類的對話中,依然會出現令人發笑、困惑、擔憂等多種結果的原因。

最近,亞馬遜Alexa再次爆出負面新聞,有用戶稱在使用Alexa期間,提問過有關心跳周期信息的問題,Alexa竟回應稱“心跳是人體中最糟糕的過程,人活著會導致自然資源的迅速枯竭同時會導致人口過剩”,并建議用戶刺死自己。

這種恐怖的對話,不禁讓人們想起了2016年微軟推出的一款AI聊天機器人Tay,上線不到一天的時間就被網友們教成了滿口臟話的“小孩”,在Twitter上大肆發布各種胡言亂語的帖子,導致Tay在24小時內被迫下架。

如果一個“智能低下”、“胡言亂語”的AI被廣泛應用于商業化產品中,其后果可想而知,不僅是AI產品質量飽受質疑,還可能會釀成大禍。因此,提升AI產品的認知智能水平,即背后的NLP技術,成為現階段AI商業化競爭的關鍵點。

事實上,NLP作為AI技術中的一個重要分支,同樣依賴算力、算法、數據三因素。其中,算力基于IT基礎設施的發展,NLP算法基于深度學習的突破,在近年來都得到了較大的進展,但是作為NLP技術得以落地的“養料”——NLP數據,卻一直處于較為“粗糙”的狀態。

從草莽到高標準

NLP數據服務進入4.0時代

人工智能時代,數據的重要性不言而喻。很多號稱擁有海量數據的公司,其實有的只是非結構化或未標注過的數據。數據標注,才是將數據轉化為AI商業價值的重要一環。

數據標注,即針對語音、圖像、文本等數據,通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數據的不同點、相似點或類別。有了被標注過的數據,AI算法才能在其基礎上進行訓練和學習。同時,數據標注的質量越高,AI學習和產出的結果越精確,AI也就顯得越智能。

舉個例子,在生活中如果想要訂機票,人們會有很多種表達:“訂機票”;“有去上海的航班么”;“要出差,幫我查下機票”;“查下航班,下周二出發去上海”......這些表達方式,有無窮多的組合,都代表“訂機票”的意圖。聽到這些表達的AI,要如何才能準確理解這些表達指的都是“訂機票”這件事?

如果沒有數據標注員對大量的句子進行標注,比如提煉出主題、標出實體、進行意圖分類、情感分類等等,給AI提供詳盡高質的“教材”,那么AI即使有了算法和算力,也無法訓練出任何“智能”。

隨著近年來深度學習算法的興起,需要依賴于大量標注的數據基礎上才能發揮作用,業界對數據標注的需求量隨之暴增,因而提供數據標注服務成為AI領域一個熱門生意。

在全球知名的數據標注眾包平臺亞馬遜Mechanical Turk上,發布者只需要填寫簡單的個人信息就可以開始工作,自行上傳標注任務。截至2011年1月,MechanicalTurk上的注冊工人數量已經達到了50萬。在2016年,有大約5%的美國人通過 MechanicalTurk賺錢,而這個數量已經超過了優步司機。

在中國,目前全國從事數據標注業務的公司約有幾百家,全職的數據標注從業者有約20萬人,兼職數據標注從業者有約100萬人。由于數據標注需求的井噴,為整個數據服務行業的發展按下了快進鍵。

據智研報告顯示,2018年,中國數據標注與審核行業的市場規模已達到52.55億元。在數據標注賽道中,不乏互聯網大廠的身影,更多的是瘋狂涌入的創業公司。在廉價勞動力迅速擴張的比拼中,數據粗放、混亂、復用的情況屢見不鮮,整個行業呈現出一派草莽的氣質。

然而,數據標注工作真的有想象中的那么簡單嗎?良莠不齊的標注數據質量,真的能夠滿足AI算法迭代的要求嗎?

在AI商業化初期,AI算法對數據的精度要求不高,日常的AI訓練首先要求數據量大,數據標注質量要求相對不那么嚴格。但是隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,企業對AI在商業化落地中的表現要求越來越高。為了保證AI算法的識別精度,數據標注的質量也就變得至關重要。

例如,在金融保險行業,早期對AI客服機器人的要求只停留在“用戶提問后,對其中的關鍵詞進行提取,并按照既定話術回答”。雖然最終回復很多是驢唇不對馬嘴,或者根本無法回答用戶的問題,但是并不妨礙保險業務的正常開展,畢竟人工客服才是回答用戶提問的主力軍。

但是在互聯網金融業務競爭異常激烈的今天,越來越多的用戶習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,并影響用戶體驗,很大程度上決定了金融機構的競爭力。

如果說NLP標注數據的初期階段,能夠將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平,那么向更高級認知智能進發的每一步,都要求質量更高、針對特定需求提供的NLP標注數據。

因此,云測數據這種新的數據服務模式——以企業具體需求進行數據采集和標注的定制化、高質量數據服務由此誕生。

站在AI數據服務的發展歷史角度看,從數據1.0時代的互聯網沉積數據,到數據2.0時代的通用型數據產品,再到數據3.0時代的眾包數據服務,如今的高質量數據服務已經進入了數據4.0時代。

通過更加規范性的組織管理和質量控制,為人工智能迭代提供質量更高更可靠的數據服務,從而為現階段AI商業化競爭提供高質量的數據支撐。

“搶手”的高質量NLP數據

“稀缺”的數據服務商

事實上,越來越多的企業已經意識到了高質量NLP數據的重要性。當AI技術落地到金融、家居、醫療、教育、汽車、工業等各個行業,在AI商業化下誕生的客服機器人、智能音箱、智能問診等各種AI產品,都對AI技術和NLP數據提出了更高的要求。

尤其是行業頭部企業,為了保持自身的競爭優勢,哪怕只是在行業平均水平上提升1%-2%的AI認知智能的準確性,也必須追求更高質量的、符合業務需求的NLP數據。因此,在AI產業蓬勃發展、市場競爭愈發激烈的倒逼下,符合企業需求的高標準NLP數據服務已成為行業頭部企業的剛需。

然而,在洶涌的市場需求面前,供給側卻出現了短缺,市面上能夠提供這種高標準服務的公司屈指可數。究其原因在于,數據采標行業門檻雖低,但天花板很高,能做到頂尖并不容易。在這一新興領域,專精于定制化、場景化、高質量數據服務的云測數據一路高歌猛進,成為國內AI數據標注領域的頭部企業。

云測數據采用自建的數據場景實驗室和數據標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領域提供的數據采集、數據標注服務。在眾多毫無技術含量、以廉價勞動力構建的數據標注“血汗工廠”中,主打高質量服務的云測數據顯得頗有些“另類”。

首先,為了產出更高質量的數據,云測數據有一整套的標準化流程和方法論。

在項目前期,項目經理會與客戶反復溝通,幫助客戶梳理更貼合實際情況的需求,達成一致后再逐漸引入標注和質檢人員,通過每天面對面的溝通和培訓,以確保每個人能夠理解并掌握標注有關技術,試標驗收合格后,再進行大批量的規模性標注。

在項目過程中,為了確保標注人員能夠做出正確的判斷,云測數據有專門的培訓師,對每個行業細分領域的專業知識進行培訓,以及標注技能和業務流程的培訓。甚至員工之間開玩笑的說“經過金融保險行業知識培訓的標注員們,都能夠直接去賣保險“。

在數據標注作業提交后,云測數據還有三層質檢環節,對于準確率達不到要求的數據會打回重新標注。在完成三層質檢后,還有抽檢環節,確保數據的高質量輸出。

其次,在人員作業素質上,云測數據也顛覆了傳統數據標注行業的“混亂”氣質,對數據服務團隊的專業化能力有著嚴格要求。

以智能客服業務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,NLP數據標注就需要對這些對話背后的意圖進行標注和分類。

在云測數據,以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標注細分。

除了對NLP數據進行對話意圖、領域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數據標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。

值得注意的是,相比圖像、視頻等數據類型,NLP數據采標方式更為復雜。據云測數據總經理賈宇航介紹,圖像采標有很強的規則性,按照規范化的指導文檔工作即可。

但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理,客戶給出的需求文檔只是讓數據服務人員能夠理解,這件事情背后的目標和意義是什么。在這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業。

這對于數據服務人員的專業化能力、對業務場景的還原能力、作業協同能力,都有很高的要求。尤其在醫療、法律、教育、智能駕駛等高度專業化的領域中,標注人員并不是隨便找一個普通人員就可以做,標注人員需要非常專業,才能進行正確的數據標注與解讀。

為了保證整個數據團隊的專業能力,云測數據在人才的選拔、培訓、考核、晉升上有著完善的機制,也對保證數據保質量產出有著十分積極的促進作用。

再次,在技術層面,云測數據對軟硬件設施的持續投入,直接拉高了行業的進入門檻。

云測數據自研的數據標注平臺會根據實際使用中的反饋,以每周甚至更快的頻率進行功能迭代,以技術結合更多的落地場景,不斷提升數據標注工具的技術含量。同時,云測數據也致力于通過工程化開發來減輕數據標注中的重復勞動,提升業務效率。

最后,在企業客戶最為看重的數據安全和隱私方面,云測數據也有自己的原則和技術保障。

第一,數據絕不復用,是云測數據的核心原則。對于客戶定制的數據需求,交付后全部清刪,云測數據既不會自己留底,也不會把定制數據復制給其他客戶,可以說云測數據一直在花大力氣樹立數據安全和隱私的標桿,以負責的態度來服務客戶。

在賈宇航看來,讓企業擁有數據會成為企業核心的競爭壁壘,客戶找到云測數據合作,一方面是信任,另一方面也是云測數據能夠幫助客戶獲得相應的競爭性。

第二,為了保證絕對的數據安全,云測數據與所有數據采集的用戶都簽訂數據授權協議,保證企業用于訓練的數據合法合規。同時,云測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。

在數據服務市場,數據質量是硬指標,企業客戶會通過人工校驗、算法檢驗等多種方式去驗證數據采標的合格率和通過率。經得起市場考驗,才有活下去的機會。

按賈宇航的話說,“我們以企業服務的方式,為標注的精準度負責”。

在云測數據服務的數百家企業中,既有各大頭部AI企業,也有各個行業的龍頭企業。這些企業在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數據服務商,最終找到了數據標注質量非常高的云測數據,并保持著長期良好的合作。

事實上,除了數據采標的質量和安全,數據服務商的全品類服務能力,以及獨立第三方的身份,也是企業進行AI合作所考量的重要因素。像云測數據這樣的服務商,不做算法,不涉及客戶業務,只提供專業的數據服務,讓企業客戶在合作時倍感放心。

從某種程度上說,如此苛刻的要求,也進一步導致了頂尖數據服務商的稀缺。

高標準數據服務處于爆發前夜

頭部服務商主導市場

如今,AI產業在政策紅利和藍海市場的雙重利好中迎來快速發展,其中NLP市場發展也進入了快車道。

據《中國人工智能發展報告2018》顯示,2017年中國人工智能智能市場規模高達237億元,其中自然語言處理市場49.77億元,占比21%。預計到2020年,中國在人工智能的市場規模將接近500億元,自然語言處理領域也將是一個百億級的市場。

不難預料,為自然語言處理市場提供“養料”的NLP數據服務,同樣處于爆發前夜。目前,自然語言處理已經有了許多商業化應用,如:機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規模和市場需求下,高質量的NLP數據服務也將成為AI商業化發展的必然趨勢。

值得注意的是,雖然高質量NLP數據需求爆棚,但是在市場上,像云測數據這類優質數據服務商會持續稀缺,供需不平衡很難在短期內解決。

從供給側看,高質量業務的競爭壁壘很高,由高素質人才、專業化流程和方法論構建出的軟實力,很難在短期內實現超越。看似業務模式很重的模式,實際上給擅長“輕裝上陣”、以平臺效應進入賽道的互聯網巨頭們,設下了短期內無法逾越的鴻溝。正如經緯的創始合伙人張穎所說:“所有輕公司以后都會做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。”

從需求側看,一方面,AI商業化對NLP數據的要求還在繼續提高,數據服務的業務操作會越來越復雜,無論是在數據采集的樣本多樣性、場景多樣性方面,還是在數據標注的數據精度、領域知識方面,數據服務商都面臨不斷升級的業務難度。對于后進者而言,沒有專業知識、技術和行業經驗的日復一日的積累,這種競爭差距只會越拉越大。

另一方面,由于AI算法需要源源不斷地輸入高質量的標注數據,好的數據服務業務粘性很高,以云測數據為例,一個項目在建立合作之后,往往會帶來長達2-3年的持續合作,這就產生了馬太效應,強者恒強。

從供需雙方合作的現狀看,高質量、定制化數據服務是一個新興領域,供需雙方的合作模式還在升級和探索中。曾經習慣大包大攬、自建數據采標團隊的企業,如今也在逐漸轉向尋求專業的數據服務商合作。

在這一過程中,供需雙方會出現更加明確的分工,也會在市場競爭的淘洗中,沉淀出最為優質的服務商。而這種合作模式的探索,最先會從各行業的頭部企業和頭部服務商開始,逐漸在眾多中小型企業中形成“示范效應”。

“沒有好的數據,人工智能就沒有未來”,這句話已經成為業界共識。在巨大的AI商業化需求下,高質量的數據已成為AI業務競爭的關鍵,由此誕生的數據服務也將是未來最重要的趨勢之一。可以預見,高標準數據服務這一新興市場亟待爆發,從長期看必將經歷從荒蕪到繁榮、從亂象到規范的發展過程,繼而承載著AI技術進入更加智能的下一階段。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124420
  • 聊天機器人
    +關注

    關注

    0

    文章

    348

    瀏覽量

    13094
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23282

原文標題:【格物·分享】AI商業化之爭:高質量NLP數據成“搶手貨”

文章出處:【微信號:GeWu-IOT,微信公眾號:物聯網資本論】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    宏集方案 | 破解數據孤島:數字化工廠建設之物聯網數據采集

    “隨著科技的飛速發展,我們已然由工業1.0時代進入到工業4.0時代。在工業4.0時代,由于需求的
    的頭像 發表于 01-27 17:06 ?567次閱讀
    宏集方案 | 破解<b class='flag-5'>數據</b>孤島:數字化工廠建設之物聯網<b class='flag-5'>數據</b>采集

    智慧農業與高標準農田數字化解決方案

    當前農業生產面臨一系列亟待解決的難題,嚴重制約了產業增效與可持續發展,成為建設智慧農業高標準農田必須解決的問題: 1、資源利用粗放,成本較高:傳統灌溉依賴人工經驗,大水漫灌現象普遍,導致寶貴的水資源
    的頭像 發表于 01-17 11:42 ?1240次閱讀
    智慧農業與<b class='flag-5'>高標準</b>農田數字化解決方案

    宏景智駕成為四省邊際交易數據中心首位數據服務

    近日,宏景智駕正式獲授為 “四省邊際交易數據中心” 首位數據服務商,并順利完成數據資產登記。衢州市數據局黨組成員(副處長級)周建良向宏景智駕頒發了
    的頭像 發表于 12-29 09:55 ?536次閱讀

    晶圓多層膜的階高標準:實現20–500nm無金屬、亞納米級臺階精度

    在集成電路檢測中,高光學對比度的晶圓級階高標準對提升自動圖像識別的精度至關重要。傳統基于單層Si-SiO?薄膜的階高標準在低臺階高度下對比度不足,通常需借助金屬鍍層增強信號,但這會引入污染風險
    的頭像 發表于 12-24 18:04 ?248次閱讀
    晶圓多層膜的階<b class='flag-5'>高標準</b>:實現20–500nm無金屬、亞納米級臺階精度

    設計部署:AI即服務平臺開發深度剖析

    頂層設計最終部署,一個成功的AI即服務平臺開發是一項復雜的系統工程,它融合了軟件工程、數據科學和運維技術的精髓。
    的頭像 發表于 11-13 14:16 ?361次閱讀

    智能無觸點穩壓方案,適配醫療與數據中心高標準需求

    直面現代醫療與數據中心的高標準用電需求,卓爾凡電力科技有限公司憑借其在廣東東莞的先進制造基地和雄厚技術積累,推出新一 無觸點穩壓器 。該產品采用先進的電力電子技術,徹底革除了傳統穩壓器的機械碳刷
    的頭像 發表于 10-13 09:29 ?381次閱讀
    智能無觸點穩壓方案,適配醫療與<b class='flag-5'>數據中心高標準</b>需求

    高標準農田中的智慧閘門物聯網系統方案

    建設高標準農田是鞏固提高糧食生產能力、保障國家糧食安全的重要舉措,也是實現農業科技現代化的關鍵所在。當前,隨著新一輪科技革命和產業變革興起,無線通信、物聯網、大數據等信息化技術迅猛發展,為高標準農田的高質量發展提供可靠幫助。
    的頭像 發表于 07-05 11:03 ?583次閱讀

    0 1 教你安裝M12連接器,每一步都精準到位

    德索精密工業深耕連接器制造,其生產的M12連接器遵循高標準,電氣性能優異、機械穩定性強。20000平方米自有工廠與30條現代化生產線,保障日產10萬個的高效供應。選材出廠全程嚴控質量,豐富規格適配多行業需求,為安裝提供可靠保
    的頭像 發表于 07-04 14:14 ?603次閱讀
    <b class='flag-5'>從</b> 0 <b class='flag-5'>到</b> 1 教你安裝M12連接器,每一步都精準到位

    智能網關RTU在智慧農田高標準農田的功能應用

    高標準農田是通過土地整治、土壤改良、水利設施建設、農電配套、機械化作業等措施,提升農田質量和生產能力,達到田塊平整、集中連片、設施完善、節水高效、宜機作業、土壤肥沃、生態友好、抗災能力強,且
    的頭像 發表于 06-26 11:07 ?775次閱讀
    智能網關RTU在智慧農田<b class='flag-5'>高標準</b>農田的功能應用

    PLC遠程控制網關在高標準農田灌區中的智能化節水應用

    一、項目背景 隨著農業現代化的推進,高標準農田建設成為提升農業生產效率和質量的重要舉措。在某大型高標準農田灌區項目中,為實現灌區的高效管理和精準灌溉,引入了先進的信息化技術。該項目采用了遠創
    的頭像 發表于 06-06 14:31 ?756次閱讀
    PLC遠程控制網關在<b class='flag-5'>高標準</b>農田灌區中的智能化節水應用

    逆變器EMC整改:4.0時代,如何融入數字化孿生技術

    南柯電子|逆變器EMC整改:4.0時代,如何融入數字化孿生技術
    的頭像 發表于 05-07 11:31 ?1112次閱讀
    逆變器EMC整改:<b class='flag-5'>4.0</b><b class='flag-5'>時代</b>,如何融入數字化孿生技術

    3.04.0,華為ADS有哪些變化?

    一年一的發布速度 [首發于智駕最前沿微信公眾號]2025年4月22日,在上海舉行的華為乾崑智能技術大會上,華為正式發布了乾崑智駕ADS 4.0。 圖 ADS 4.0發布,圖片來自搜狐 前一
    的頭像 發表于 05-06 09:16 ?6263次閱讀
    <b class='flag-5'>從</b>3.0<b class='flag-5'>到</b><b class='flag-5'>4.0</b>,華為ADS有哪些變化?

    工業4.0時代的智能樞紐,選型指南來了!

    工業4.0時代的智能樞紐,選型指南來了! 隨著工業4.0與物聯網技術的深度融合,工業通信網關作為設備互聯與數據智能的"中樞神經",市場規模預計在2025年突破120億美元(年復合增長率
    的頭像 發表于 04-21 10:42 ?1059次閱讀

    TDE工業網關:智能制造時代的“數據翻譯官”

    在工業4.0時代,工廠里的傳感器、PLC、機器人等設備每分每秒都在產生海量數據。然而,這些設備往往“語言不通”——不同的通信協議、接口標準數據
    的頭像 發表于 03-20 16:12 ?884次閱讀

    設備管理系統:紙筆智能,跨越時代的進化之旅

    在數字化時代,設備管理系統經歷紙筆電子表格再到數字孿生的變革,實現了單一全方位的管理。數據
    的頭像 發表于 03-14 10:36 ?727次閱讀
    設備管理系統:<b class='flag-5'>從</b>紙筆<b class='flag-5'>到</b>智能,跨越<b class='flag-5'>時代</b>的進化之旅