国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NLP技術成為現階段AI商業化競爭關鍵點

454398 ? 來源:ST社區 ? 作者:ST社區 ? 2020-12-11 11:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如今調戲Siri已經成為網友們的固定節目。數據顯示,蘋果語音助手Siri大約每天會收到全國427000個問題,其中80%的問題都是:“你會說東北/四川/湖南話嗎?”“來段beatbox好嗎?”

不得不說,Siri真的為人類付出太多了。事實上,像Siri這樣的AI聊天機器人,生來并不是為了逗笑人們,而是作為一個虛擬AI助手,去幫助用戶解決生活中各種各樣的問題,比如天氣預報、吃飯訂餐、查詢新聞資訊、交通路線等等。

這背后,不乏有AI企業的深耕細作,同時也有眾多傳統企業智能化轉型,運用AI技術優化用戶體驗、增強企業協同效率等。

然而,由于AI聊天機器人背后的NLP(自然語言處理)技術太過艱深,打通了NLP技術的“任督六脈”,幾乎等同于擁有了人類的認知智能,因此至今沒有任何一個科技巨頭敢宣稱自己的AI產品擁有和人類一樣的語言和認知能力。

這也是為什么盡管蘋果Siri、亞馬遜Alexa、谷歌Google Assistant、微軟Cortana等各種AI聊天機器人,每天都在孜孜不倦地改進自己的NLP技術能力,但是在和人類的對話中,依然會出現令人發笑、困惑、擔憂等多種結果的原因。

最近,亞馬遜Alexa再次爆出負面新聞,有用戶稱在使用Alexa期間,提問過有關心跳周期信息的問題,Alexa竟回應稱“心跳是人體中最糟糕的過程,人活著會導致自然資源的迅速枯竭同時會導致人口過剩”,并建議用戶刺死自己。

這種恐怖的對話,不禁讓人們想起了2016年微軟推出的一款AI聊天機器人Tay,上線不到一天的時間就被網友們教成了滿口臟話的“小孩”,在Twitter上大肆發布各種胡言亂語的帖子,導致Tay在24小時內被迫下架。

如果一個“智能低下”、“胡言亂語”的AI被廣泛應用于商業化產品中,其后果可想而知,不僅是AI產品質量飽受質疑,還可能會釀成大禍。因此,提升AI產品的認知智能水平,即背后的NLP技術,成為現階段AI商業化競爭的關鍵點。

事實上,NLP作為AI技術中的一個重要分支,同樣依賴算力、算法、數據三因素。其中,算力基于IT基礎設施的發展,NLP算法基于深度學習的突破,在近年來都得到了較大的進展,但是作為NLP技術得以落地的“養料”——NLP數據,卻一直處于較為“粗糙”的狀態。

從草莽到高標準

NLP數據服務進入4.0時代

人工智能時代,數據的重要性不言而喻。很多號稱擁有海量數據的公司,其實有的只是非結構化或未標注過的數據。數據標注,才是將數據轉化為AI商業價值的重要一環。

數據標注,即針對語音、圖像、文本等數據,通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數據的不同點、相似點或類別。有了被標注過的數據,AI算法才能在其基礎上進行訓練和學習。同時,數據標注的質量越高,AI學習和產出的結果越精確,AI也就顯得越智能。

舉個例子,在生活中如果想要訂機票,人們會有很多種表達:“訂機票”;“有去上海的航班么”;“要出差,幫我查下機票”;“查下航班,下周二出發去上海”......這些表達方式,有無窮多的組合,都代表“訂機票”的意圖。聽到這些表達的AI,要如何才能準確理解這些表達指的都是“訂機票”這件事?

如果沒有數據標注員對大量的句子進行標注,比如提煉出主題、標出實體、進行意圖分類、情感分類等等,給AI提供詳盡高質的“教材”,那么AI即使有了算法和算力,也無法訓練出任何“智能”。

隨著近年來深度學習算法的興起,需要依賴于大量標注的數據基礎上才能發揮作用,業界對數據標注的需求量隨之暴增,因而提供數據標注服務成為AI領域一個熱門生意。

在全球知名的數據標注眾包平臺亞馬遜Mechanical Turk上,發布者只需要填寫簡單的個人信息就可以開始工作,自行上傳標注任務。截至2011年1月,MechanicalTurk上的注冊工人數量已經達到了50萬。在2016年,有大約5%的美國人通過 MechanicalTurk賺錢,而這個數量已經超過了優步司機。

在中國,目前全國從事數據標注業務的公司約有幾百家,全職的數據標注從業者有約20萬人,兼職數據標注從業者有約100萬人。由于數據標注需求的井噴,為整個數據服務行業的發展按下了快進鍵。

據智研報告顯示,2018年,中國數據標注與審核行業的市場規模已達到52.55億元。在數據標注賽道中,不乏互聯網大廠的身影,更多的是瘋狂涌入的創業公司。在廉價勞動力迅速擴張的比拼中,數據粗放、混亂、復用的情況屢見不鮮,整個行業呈現出一派草莽的氣質。

然而,數據標注工作真的有想象中的那么簡單嗎?良莠不齊的標注數據質量,真的能夠滿足AI算法迭代的要求嗎?

在AI商業化初期,AI算法對數據的精度要求不高,日常的AI訓練首先要求數據量大,數據標注質量要求相對不那么嚴格。但是隨著AI與各個產業結合得愈加緊密,AI商業化程度進入新的高度,企業對AI在商業化落地中的表現要求越來越高。為了保證AI算法的識別精度,數據標注的質量也就變得至關重要。

例如,在金融保險行業,早期對AI客服機器人的要求只停留在“用戶提問后,對其中的關鍵詞進行提取,并按照既定話術回答”。雖然最終回復很多是驢唇不對馬嘴,或者根本無法回答用戶的問題,但是并不妨礙保險業務的正常開展,畢竟人工客服才是回答用戶提問的主力軍。

但是在互聯網金融業務競爭異常激烈的今天,越來越多的用戶習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,并影響用戶體驗,很大程度上決定了金融機構的競爭力。

如果說NLP標注數據的初期階段,能夠將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平,那么向更高級認知智能進發的每一步,都要求質量更高、針對特定需求提供的NLP標注數據。

因此,云測數據這種新的數據服務模式——以企業具體需求進行數據采集和標注的定制化、高質量數據服務由此誕生。

站在AI數據服務的發展歷史角度看,從數據1.0時代的互聯網沉積數據,到數據2.0時代的通用型數據產品,再到數據3.0時代的眾包數據服務,如今的高質量數據服務已經進入了數據4.0時代。

通過更加規范性的組織管理和質量控制,為人工智能迭代提供質量更高更可靠的數據服務,從而為現階段AI商業化競爭提供高質量的數據支撐。

“搶手”的高質量NLP數據

“稀缺”的數據服務商

事實上,越來越多的企業已經意識到了高質量NLP數據的重要性。當AI技術落地到金融、家居、醫療、教育、汽車、工業等各個行業,在AI商業化下誕生的客服機器人、智能音箱、智能問診等各種AI產品,都對AI技術和NLP數據提出了更高的要求。

尤其是行業頭部企業,為了保持自身的競爭優勢,哪怕只是在行業平均水平上提升1%-2%的AI認知智能的準確性,也必須追求更高質量的、符合業務需求的NLP數據。因此,在AI產業蓬勃發展、市場競爭愈發激烈的倒逼下,符合企業需求的高標準NLP數據服務已成為行業頭部企業的剛需。

然而,在洶涌的市場需求面前,供給側卻出現了短缺,市面上能夠提供這種高標準服務的公司屈指可數。究其原因在于,數據采標行業門檻雖低,但天花板很高,能做到頂尖并不容易。在這一新興領域,專精于定制化、場景化、高質量數據服務的云測數據一路高歌猛進,成為國內AI數據標注領域的頭部企業。

云測數據采用自建的數據場景實驗室和數據標注基地,為智能駕駛、智能家居、智慧城市、智慧金融、零售等領域提供的數據采集、數據標注服務。在眾多毫無技術含量、以廉價勞動力構建的數據標注“血汗工廠”中,主打高質量服務的云測數據顯得頗有些“另類”。

首先,為了產出更高質量的數據,云測數據有一整套的標準化流程和方法論。

在項目前期,項目經理會與客戶反復溝通,幫助客戶梳理更貼合實際情況的需求,達成一致后再逐漸引入標注和質檢人員,通過每天面對面的溝通和培訓,以確保每個人能夠理解并掌握標注有關技術,試標驗收合格后,再進行大批量的規模性標注。

在項目過程中,為了確保標注人員能夠做出正確的判斷,云測數據有專門的培訓師,對每個行業細分領域的專業知識進行培訓,以及標注技能和業務流程的培訓。甚至員工之間開玩笑的說“經過金融保險行業知識培訓的標注員們,都能夠直接去賣保險“。

在數據標注作業提交后,云測數據還有三層質檢環節,對于準確率達不到要求的數據會打回重新標注。在完成三層質檢后,還有抽檢環節,確保數據的高質量輸出。

其次,在人員作業素質上,云測數據也顛覆了傳統數據標注行業的“混亂”氣質,對數據服務團隊的專業化能力有著嚴格要求。

以智能客服業務場景為例,當客服詢問用戶是否購買此商品時,各種用戶會給出不同回答:“我要和家人商量一下”;“我會考慮”;“我現在不方便,你一會兒再打過來”等等,背后的意圖有很多種,可能是暫不購買,暫不考慮,拒絕購買或者興趣較大。那么,NLP數據標注就需要對這些對話背后的意圖進行標注和分類。

在云測數據,以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標注細分。

除了對NLP數據進行對話意圖、領域、槽位等進行判斷和標注,多角度的泛化也必不可少。也就是說,無論用戶說的是地方話還是普通話,有沒有出現口誤,還是以不同的句子表達同一個意思,AI都能夠讀懂句子并給出正確的回答,這就要求NLP數據標注員對句子進行泛化,以不同的描述方式重組或擴充句式、標簽等,以提升AI對話的準確度。

值得注意的是,相比圖像、視頻等數據類型,NLP數據采標方式更為復雜。據云測數據總經理賈宇航介紹,圖像采標有很強的規則性,按照規范化的指導文檔工作即可。

但NLP數據對應的是語言的豐富性,需要結合上下文等背景去理解和處理,客戶給出的需求文檔只是讓數據服務人員能夠理解,這件事情背后的目標和意義是什么。在這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議,與客戶反復溝通確認達成一致后,才能真正地去作業。

這對于數據服務人員的專業化能力、對業務場景的還原能力、作業協同能力,都有很高的要求。尤其在醫療、法律、教育、智能駕駛等高度專業化的領域中,標注人員并不是隨便找一個普通人員就可以做,標注人員需要非常專業,才能進行正確的數據標注與解讀。

為了保證整個數據團隊的專業能力,云測數據在人才的選拔、培訓、考核、晉升上有著完善的機制,也對保證數據保質量產出有著十分積極的促進作用。

再次,在技術層面,云測數據對軟硬件設施的持續投入,直接拉高了行業的進入門檻。

云測數據自研的數據標注平臺會根據實際使用中的反饋,以每周甚至更快的頻率進行功能迭代,以技術結合更多的落地場景,不斷提升數據標注工具的技術含量。同時,云測數據也致力于通過工程化開發來減輕數據標注中的重復勞動,提升業務效率。

最后,在企業客戶最為看重的數據安全和隱私方面,云測數據也有自己的原則和技術保障。

第一,數據絕不復用,是云測數據的核心原則。對于客戶定制的數據需求,交付后全部清刪,云測數據既不會自己留底,也不會把定制數據復制給其他客戶,可以說云測數據一直在花大力氣樹立數據安全和隱私的標桿,以負責的態度來服務客戶。

在賈宇航看來,讓企業擁有數據會成為企業核心的競爭壁壘,客戶找到云測數據合作,一方面是信任,另一方面也是云測數據能夠幫助客戶獲得相應的競爭性。

第二,為了保證絕對的數據安全,云測數據與所有數據采集的用戶都簽訂數據授權協議,保證企業用于訓練的數據合法合規。同時,云測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。

在數據服務市場,數據質量是硬指標,企業客戶會通過人工校驗、算法檢驗等多種方式去驗證數據采標的合格率和通過率。經得起市場考驗,才有活下去的機會。

按賈宇航的話說,“我們以企業服務的方式,為標注的精準度負責”。

在云測數據服務的數百家企業中,既有各大頭部AI企業,也有各個行業的龍頭企業。這些企業在追求更高的AI認知智能準確度的過程中,合作過各種各樣的數據服務商,最終找到了數據標注質量非常高的云測數據,并保持著長期良好的合作。

事實上,除了數據采標的質量和安全,數據服務商的全品類服務能力,以及獨立第三方的身份,也是企業進行AI合作所考量的重要因素。像云測數據這樣的服務商,不做算法,不涉及客戶業務,只提供專業的數據服務,讓企業客戶在合作時倍感放心。

從某種程度上說,如此苛刻的要求,也進一步導致了頂尖數據服務商的稀缺。

高標準數據服務處于爆發前夜

頭部服務商主導市場

如今,AI產業在政策紅利和藍海市場的雙重利好中迎來快速發展,其中NLP市場發展也進入了快車道。

據《中國人工智能發展報告2018》顯示,2017年中國人工智能智能市場規模高達237億元,其中自然語言處理市場49.77億元,占比21%。預計到2020年,中國在人工智能的市場規模將接近500億元,自然語言處理領域也將是一個百億級的市場。

不難預料,為自然語言處理市場提供“養料”的NLP數據服務,同樣處于爆發前夜。目前,自然語言處理已經有了許多商業化應用,如:機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等,在龐大的市場規模和市場需求下,高質量的NLP數據服務也將成為AI商業化發展的必然趨勢。

值得注意的是,雖然高質量NLP數據需求爆棚,但是在市場上,像云測數據這類優質數據服務商會持續稀缺,供需不平衡很難在短期內解決。

從供給側看,高質量業務的競爭壁壘很高,由高素質人才、專業化流程和方法論構建出的軟實力,很難在短期內實現超越。看似業務模式很重的模式,實際上給擅長“輕裝上陣”、以平臺效應進入賽道的互聯網巨頭們,設下了短期內無法逾越的鴻溝。正如經緯的創始合伙人張穎所說:“所有輕公司以后都會做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。”

從需求側看,一方面,AI商業化對NLP數據的要求還在繼續提高,數據服務的業務操作會越來越復雜,無論是在數據采集的樣本多樣性、場景多樣性方面,還是在數據標注的數據精度、領域知識方面,數據服務商都面臨不斷升級的業務難度。對于后進者而言,沒有專業知識、技術和行業經驗的日復一日的積累,這種競爭差距只會越拉越大。

另一方面,由于AI算法需要源源不斷地輸入高質量的標注數據,好的數據服務業務粘性很高,以云測數據為例,一個項目在建立合作之后,往往會帶來長達2-3年的持續合作,這就產生了馬太效應,強者恒強。

從供需雙方合作的現狀看,高質量、定制化數據服務是一個新興領域,供需雙方的合作模式還在升級和探索中。曾經習慣大包大攬、自建數據采標團隊的企業,如今也在逐漸轉向尋求專業的數據服務商合作。

在這一過程中,供需雙方會出現更加明確的分工,也會在市場競爭的淘洗中,沉淀出最為優質的服務商。而這種合作模式的探索,最先會從各行業的頭部企業和頭部服務商開始,逐漸在眾多中小型企業中形成“示范效應”。

“沒有好的數據,人工智能就沒有未來”,這句話已經成為業界共識。在巨大的AI商業化需求下,高質量的數據已成為AI業務競爭的關鍵,由此誕生的數據服務也將是未來最重要的趨勢之一。可以預見,高標準數據服務這一新興市場亟待爆發,從長期看必將經歷從荒蕪到繁榮、從亂象到規范的發展過程,繼而承載著AI技術進入更加智能的下一階段。

編輯:hfy5

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50111

    瀏覽量

    265565
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23282
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AR眼鏡方案亮相國際展會,鐳昱單片全彩Micro-LED邁入商業化階段

    Photonic West兩大國際頂級展會。這一密集的國際亮相清晰表明,單片全彩Micro-LED技術已進入商業化驗證落地的關鍵階段,其成熟度與
    的頭像 發表于 02-28 16:38 ?707次閱讀
    AR眼鏡方案亮相國際展會,鐳昱單片全彩Micro-LED邁入<b class='flag-5'>商業化</b>新<b class='flag-5'>階段</b>

    SST固變的技術經濟學分析與商業化部署路徑

    傾佳楊茜-死磕固變:SST固變的技術經濟學分析、全生命周期評估與商業化部署路徑 產業宏觀背景與市場動力學演進 在全球能源系統加速向低碳化、數字和高度分散轉型的宏觀背景下,現代電力系
    的頭像 發表于 02-25 11:43 ?459次閱讀
    SST固變的<b class='flag-5'>技術</b>經濟學分析與<b class='flag-5'>商業化</b>部署路徑

    PIX Moving與泰宇坦行啟動城市機器人商業化試點運營

    為加速自動駕駛技術在真實商業場景中的價值轉化,PIX Moving 近日宣布與運營合作伙伴泰宇坦行(勘設股份控股子公司)達成戰略合作,在貴陽市觀山湖區正式啟動城市機器人商業化試點運營。
    的頭像 發表于 01-15 11:32 ?725次閱讀

    踏歌智行斬獲2025高工金球獎年度無人駕駛商業化落地先鋒獎

    在12月11日舉行的2025高工智能汽車金球獎評選中,踏歌智行憑借豐富的露天礦商業化實踐經驗,以及優秀的運營效率表現,一舉斬獲“無人駕駛商業化落地先鋒獎”年度大獎。
    的頭像 發表于 12-19 17:38 ?834次閱讀

    智行者科技榮獲2025高工金球獎年度無人駕駛商業化落地先鋒獎

    近日,在2025(第九屆)高工智能汽車年會上,備受業界矚目的年度金球獎榜單正式揭曉。智行者憑借在無人駕駛領域卓越的商業化落地成果與顯著的行業示范價值,成功摘得 “年度無人駕駛商業化落地先鋒獎”。
    的頭像 發表于 12-16 14:14 ?447次閱讀

    百度蘿卜快跑獲得阿布扎比全無人商業化運營許可

    11月10日,蘿卜快跑獲得由阿布扎比綜合交通中心(ITC)頒發的首批全無人商業化運營許可,標志著蘿卜快跑首次在中國以外地區啟動面向公眾的規模全無人駕駛運營。
    的頭像 發表于 11-13 16:35 ?986次閱讀

    企創科技與天罡智算合作再升級,獨家運營模型市場賦能AI應用高效商業化

    重要升級。在既有品牌戰略合作基礎上,企創科技正式成為天罡智算平臺"AI模型市場"的獨家運營商,此標志著雙方合作從品牌層面深化至業務運營核心,共同為人工智能企業打造從市場推廣到商業轉化的完整閉環服務。 一、強強聯合,構建
    的頭像 發表于 10-22 13:43 ?165次閱讀
    企創科技與天罡智算合作再升級,獨家運營模型市場賦能<b class='flag-5'>AI</b>應用高效<b class='flag-5'>商業化</b>

    從續航焦慮到安全飛行:增程式技術如何推動eVTOL商業化落地

    在低空經濟加速發展的背景下,電動垂直起降飛行器(eVTOL)的商業化進程面臨核心挑戰——續航能力和動力可靠性。純電推進系統受限于當前電池能量密度,難以滿足中遠程飛行需求,而增程式發電系統
    的頭像 發表于 09-25 11:25 ?1156次閱讀
    從續航焦慮到安全飛行:增程式<b class='flag-5'>技術</b>如何推動eVTOL<b class='flag-5'>商業化</b>落地

    AIDC如何成為AI發展的關鍵一棒?

    AI
    腦極體
    發布于 :2025年09月21日 12:21:23

    AI 芯片浪潮下,職場晉升新契機?

    、新架構不斷涌現。能夠在工作中提出創新性的解決方案,推動 AI 芯片性能、功耗、成本等關鍵指標的優化,將極大提升在職稱評審中的競爭力。例如,在芯片設計中引入新的計算范式,如存算一體技術
    發表于 08-19 08:58

    政策、市場、技術三重共振,光亞鴻道操作系統迎商業化落地窗口期

    在全球AI機器人產業加速發展的背景下,中國正迎來人形機器人商業化落地的關鍵窗口期。摩根士丹利7月23日報告顯示,中國將在2025年下半年掀起"人形機器人熱潮"。在此背景下,光亞鴻道自主研發的鴻道
    的頭像 發表于 08-01 14:48 ?687次閱讀

    突破三大技術瓶頸!這家企業讓鐵鉻液流電池走向商業化

    電子發燒友網綜合報道 在全球能源轉型的關鍵時期,新型儲能技術成為推動能源綠色低碳轉型的重要支撐。《“十四五”新型儲能發展實施方案》明確提出,到2025年,新型儲能要由商業化初期步入規
    的頭像 發表于 07-20 00:03 ?6514次閱讀

    Chiplet商業化將大幅增加網絡威脅

    小芯片的商業化將大大增加硬件遭受攻擊的可能性,這就需要在供應鏈的每個層面采取更廣泛的安全措施和流程,包括從初始設計到產品報廢的整個過程中的可追溯性。近年來,安全措施方面已取得了長足進步,包括從識別
    的頭像 發表于 05-28 13:48 ?926次閱讀
    Chiplet<b class='flag-5'>商業化</b>將大幅增加網絡威脅

    隆基發布全球首款HBC商業化組件EcoLife系列

    近日,隆基在慕尼黑國際太陽能技術博覽會(Intersolar)上正式發布高端戶用品牌LONGi EcoLife系列組件產品。該系列產品基于高效異質結背接觸電池技術(HBC)打造,這也是異質結背接觸電池技術
    的頭像 發表于 05-09 17:36 ?1095次閱讀

    電機系統節能關鍵技術及展望

    節約能源既是我國經濟和社會發展的一項長遠戰略和基本國策,也是當前的緊迫任務。論文在深入分析國內外電機系統節能現狀和介紹先進的節能關鍵技術的基礎上,指出了現階段我國在電機系統節能方面存在的問題,并結合
    發表于 04-30 00:43