国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

業務場景數據的采集和標注

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-02 14:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無論是在傳統機器學習領域還是現今炙手可熱的深度學習領域,基于訓練樣本有明確標簽或結果的監督學習仍然是一種主要的模型訓練方式。尤其是深度學習領域,需要更多數據以提升模型效果。目前,已經有一些規模較大的公開數據集,如ImageNet,COCO等。對于深度學習入門者,這些公開數據集可以提供非常大的幫助;但是對于大部分企業開發者,特別在醫學成像自動駕駛、工業質檢等領域中,他們更需要利用專業領域的實際業務數據定制AI模型應用,以保證其能夠更好地應用在業務中。因此,業務場景數據的采集和標注也是在實際AI模型開發過程中必不可少的重要環節。

數據標注的質量和規模通常是提升AI模型應用效果的重要因素,然而完全通過人力手動標注數據建立一個高質量、大規模專業領域數據集卻并不容易:標注人員的培訓與手工標注成本高、耗時長。為解決此問題,我們可以利用主動學習的方法,采用“Human-in-the-loop”的交互式框架(圖1)進行數據標注,以有效減少人工數據標注量。

圖1 基于主動學習的“Human-in-the-loop”交互式數據標注框架

主動學習(ActiveLearning, AL)是一種挑選具有高信息度數據的有效方式,它將數據標注過程呈現為學習算法和用戶之間的交互。其中,算法負責挑選對訓練AI模型價值更高的樣本,而用戶則標注那些挑選出來的樣本。如“Human-in-the-loop”交互式數據標注框架,通過用戶已標注的一部分數據來訓練AI模型,通過此模型來標注剩余數據,再從中篩選出AI模型標注較為困難的數據進行人工標注,再將這些數據用于模型的優化。幾輪過后,用于數據標注的AI模型將會具備較高的精度,更好地進行數據標注。以圖像分類問題舉例,首先,人工挑選并標注一部分圖像數據,訓練初始模型,然后利用訓練的模型預測其余未標注的數據,再通過“主動學習”中的“查詢方法”挑選出模型比較難分辨類別的數據,再人為修正這些“難”數據的標簽并加入訓練集中再次微調(Fine-tuning)訓練模型。“查詢方法”是主動學習的核心之一,最常見的“查詢方法”有基于不確定性的樣本查詢策略和基于多樣性的樣本查詢策略。

基于不確定性的樣本查詢策略可查詢出深度學習模型預測時,靠近決策邊界的樣本。以二分類問題舉例,當一個未標注樣本被預測為任一標簽的概率都是50%時,則該樣本對于預測模型而言是“不確定”的,極有可能被錯誤分類。要注意的是,主動學習是一個迭代過程,每次迭代,模型都會接收認為修正后的標注數據微調模型,通過這個過程直接改變模型決策的邊界,提高分類的正確率。

基于多樣性的查詢策略,可實現對當前深度學習模型下狀態未知樣本的查詢。將通過多樣性查詢挑選出的數據加入訓練集,可豐富訓練集的特征組合,提升模型的泛化能力。模型學習過的數據特征越豐富,泛化能力越強,預測模型適用的場景也越廣。

為解決大數據量標注的痛點,基于主動學習且融合多樣查詢策略的智能標注AI解決方案應運而生。通過EasyDL平臺使用智能標注后,開發者們只需標注數據集中30%左右的數據,即可啟動智能標注在EasyDL后臺自動標注剩余數據,再返回少量后臺難以確定的數據再次進行人工標注,同時提升自動標注的準確性,經過幾輪之后,在實際項目測試中,智能標注功能可以幫助用戶節省70%的數據標注量,極大地減少數據標注中的人力成本和時間成本。

EasyDL零門檻AI開發平臺,面向企業開發者提供智能標注、模型訓練、服務部署等全流程功能,針對AI模型開發過程中繁雜的工作,提供便捷高效的平臺化解決方案。目前,EasyDL的智能標注功能已支持計算機視覺CV方向的物體檢測模型、圖像分割、自然語言處理NLP方向的文本分類模型的數據標注。

智能標注解決了模型開發過程中龐大的數據準備難題,那么在模型訓練與部署階段,EasyDL是否還有其他“武功秘籍”幫助開發者高效開發?

本周六,AI快車道EasyDL零門檻模型訓練營來到六朝古都南京,依托槳聲燈影里的秦淮河,為這座歷史悠久的城市帶來AI科技的新氣息!

各行業如何做到技術與場景結合,高效用AI?

視覺模型背后的核心技術點如何理解?

從云到端,端側模型的技術原理與部署如何操作?

模型精度難以提升,有沒有關鍵效果提升技巧尚未掌握?

責任編輯:xj

原文標題:百度工程師帶來干貨分享,助你轉型AI應用工程師!

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據采集
    +關注

    關注

    41

    文章

    8041

    瀏覽量

    120909
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301446
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136958
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124400

原文標題:百度工程師帶來干貨分享,助你轉型AI應用工程師!

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛數據標注是所有信息都要標注嗎?

    [首發于智駕最前沿微信公眾號]數據標注對于自動駕駛來說,就像是老師教小朋友知識,數據標注可以讓車輛學習辨別道路交通信息的能力。攝像頭、雷達、激光雷達(LiDAR)拍下來的只是一堆原始信
    的頭像 發表于 12-04 09:05 ?873次閱讀
    自動駕駛<b class='flag-5'>數據</b><b class='flag-5'>標注</b>是所有信息都要<b class='flag-5'>標注</b>嗎?

    算法工程師不愿做標注工作,怎么辦?

    對于算法而言,圖像標注是一項關鍵性工作,越是大量的新數據標注,對于算法的性能提升越有幫助。但是圖像標注是一項極其費時費力的工作,特別是遇到稍微復雜的
    的頭像 發表于 12-02 17:56 ?542次閱讀
    算法工程師不愿做<b class='flag-5'>標注</b>工作,怎么辦?

    小語種OCR標注效率提升10+倍:PaddleOCR+ERNIE 4.5自動標注實戰解析

    摘要 :小語種OCR研發的核心瓶頸在于高質量標注數據的稀缺與高昂成本。本文介紹一種創新的自動化標注方案,利用 PaddleOCR 進行文本檢測與裁剪,并調用 ERNIE 4.5 大模型進行雙重預測
    的頭像 發表于 08-29 11:26 ?3642次閱讀
    小語種OCR<b class='flag-5'>標注</b>效率提升10+倍:PaddleOCR+ERNIE 4.5自動<b class='flag-5'>標注</b>實戰解析

    自動駕駛數據標注主要是標注什么?

    [首發于智駕最前沿微信公眾號]在自動駕駛系統的研發過程中,數據標注是實現高性能感知模型的基礎環節,其核心目標是將車輛從環境中采集到的原始感知數據(主要包括圖像、點云、視頻序列等)轉化為
    的頭像 發表于 07-30 11:54 ?1345次閱讀
    自動駕駛<b class='flag-5'>數據</b><b class='flag-5'>標注</b>主要是<b class='flag-5'>標注</b>什么?

    什么是自動駕駛數據標注?如何好做數據標注

    、精準且高效的數據標注流程顯得尤為關鍵。那什么是數據標注?如何做數據標注? 自動駕駛
    的頭像 發表于 07-09 09:19 ?1377次閱讀
    什么是自動駕駛<b class='flag-5'>數據</b><b class='flag-5'>標注</b>?如何好做<b class='flag-5'>數據</b><b class='flag-5'>標注</b>?

    端到端數據標注方案在自動駕駛領域的應用優勢

    10-20TB,其中需要標注數據占比超過60%。在這樣的背景下,端到端數據標注方案應運而生,正在重塑自動駕駛的數據生產范式。 端到端
    的頭像 發表于 06-23 17:27 ?1015次閱讀

    數據標注與大模型的雙向賦能:效率與性能的躍升

    ??在人工智能蓬勃發展的時代,大模型憑借其強大的學習與泛化能力,已成為眾多領域創新變革的核心驅動力。而數據標注作為大模型訓練的基石,為大模型性能提升注入關鍵動力,是模型不可或缺的“養料。大模型則憑借
    的頭像 發表于 06-04 17:15 ?1989次閱讀
    <b class='flag-5'>數據</b><b class='flag-5'>標注</b>與大模型的雙向賦能:效率與性能的躍升

    淺析AI數據采集標注在運動健康領域的落地應用

    的核心引擎。AI數據采集標注作為人工智能技術應用的根基,通過為算法模型提供高質量的數據支撐,在運動健康領域的多個場景實現了深度落地,從根本上改變了傳統運動健康管理
    的頭像 發表于 05-28 17:39 ?1036次閱讀
    淺析AI<b class='flag-5'>數據采集</b>和<b class='flag-5'>標注</b>在運動健康領域的落地應用

    東軟集團入選國家數據數據標注優秀案例

    近日,東軟飛標醫學影像標注平臺在國家數據局發布數據標注優秀案例集名單中排名第一(案例名稱“多模態醫學影像智能數據
    的頭像 發表于 05-09 14:37 ?1221次閱讀

    標貝科技“4D-BEV上億點云標注系統”入選國家數據局首批數據標注優秀案例

    4月29日,作為第八屆數字中國建設峰會的重要組成部分,由國家數據局主辦的高質量數據集和數據標注主題交流活動在福州市數字中國會展中心舉行。會議交流活動聚焦“推動高質量
    的頭像 發表于 04-30 14:38 ?732次閱讀
    標貝科技“4D-BEV上億點云<b class='flag-5'>標注</b>系統”入選國家<b class='flag-5'>數據</b>局首批<b class='flag-5'>數據</b><b class='flag-5'>標注</b>優秀案例

    富士PLC數據采集網關的功能特點及應用場景

    富士PLC數據采集網關是一款用于采集富士PLC數據的工業設備,以下是其功能特點及應用場景的具體介紹: 功能特點 數據采集能力強:能夠實時
    的頭像 發表于 04-24 14:20 ?910次閱讀

    數據標注服務—奠定大模型訓練的數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
    的頭像 發表于 03-21 10:30 ?3299次閱讀

    標貝數據標注服務:奠定大模型訓練的數據基石

    數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
    的頭像 發表于 03-21 10:27 ?1114次閱讀
    標貝<b class='flag-5'>數據</b><b class='flag-5'>標注</b>服務:奠定大模型訓練的<b class='flag-5'>數據</b>基石

    自動化標注技術推動AI數據訓練革新

    標貝自動化數據標注平臺在全棧數據標注場景式中搭載了大模型預標注和自動化
    的頭像 發表于 03-14 16:46 ?1360次閱讀

    標貝自動化數據標注平臺推動AI數據訓練革新

    標貝自動化數據標注平臺在全棧數據標注場景式中搭載了大模型預標注和自動化
    的頭像 發表于 03-14 16:42 ?1651次閱讀
    標貝自動化<b class='flag-5'>數據</b><b class='flag-5'>標注</b>平臺推動AI<b class='flag-5'>數據</b>訓練革新