国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習:基于語境的文本分類弱監督學習

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:丁磊 ? 2021-01-18 16:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

高成本的人工標簽使得弱監督學習備受關注。seed-driven 是弱監督學習中的一種常見模型。該模型要求用戶提供少量的seed words,根據seed words對未標記的訓練數據生成偽標簽,增加訓練樣本。

但是由于一詞多義現象的存在,同一個seed word會出現在不同的類別中,從而增加生成正確偽標簽的難度;同時,單詞w在語料庫中的所有位置都使用一個的詞向量,也會降低分類模型的準確性。

而本篇論文主要貢獻有:

開發一種無監督的方法,可以根據詞向量和seed words,解決語料庫中單詞的一詞多義問題。

設計一種排序機制,消除seed words中一些無效的單詞;并將有效的單詞擴充進seed words中。

模型整體結構為:

23886e4c-58b3-11eb-8b86-12bb97331649.png

第一步:使用聚類算法解決語料庫中單詞的一詞多義問題

對于每一個單詞 w, 假設w出現在語料庫的n個不同位置, 分別為 ,使用K-Means算法將分成K類,這里K可理解為單詞w的K個不同解釋。

用下列公式計算K的值:

23bb05f0-58b3-11eb-8b86-12bb97331649.png

其中代表第i個聚類中心的向量。的計算方法如下:

240a0f10-58b3-11eb-8b86-12bb97331649.png

這里s表示一個seed word,且表示s在語料庫第i次出現,對應的詞向量為。

sim() 表示余弦函數,median( )表示取中位數。

則對于任意,有

24453194-58b3-11eb-8b86-12bb97331649.png

綜上,一詞多義問題解決算法如下:

249a483c-58b3-11eb-8b86-12bb97331649.png

使用上面算法,我們就可以將原始語料庫轉變為基于語境下的語料庫:

24f7145e-58b3-11eb-8b86-12bb97331649.png

第二步:對未標記的訓練數據生成偽標簽令表示文檔d的偽標簽;表示類別為的seed word 集合;表示單詞w出現在文檔d的詞頻

2578e2f4-58b3-11eb-8b86-12bb97331649.png

第三步:使用基于語境下的語料庫進行文檔分類

本篇論文使用Hierarchical Attention Networks (HAN) 進行文本分類。

25a2678c-58b3-11eb-8b86-12bb97331649.png

第四步:設計排序函數,更新seed words我們設計出一個打分函數,用于表示單詞w僅高頻的出現在類別為的文檔。分值越高,表示單詞w對類別越重要。我們可以選擇分值最高的前幾個單詞作為新的seed word。也可以剔除一些不重要的seed word。

264f65a4-58b3-11eb-8b86-12bb97331649.png

其中:

268ed78e-58b3-11eb-8b86-12bb97331649.png

表示類別為的文檔的數量。表示類別為且含有單詞w的文檔的數量。表示在類別為的文檔中,單詞w的詞頻。

n為語料庫D的文檔總數目表示語料庫D中含有單詞w的文檔的數量。

結果

我們的完整模型稱為 ConWea,

而 ConWea-NoCon是 ConWea確實缺少第一步的變體。

ConWea-NoExpan是 ConWea確實缺少第四步的變體。

ConWea-WSD是將 ConWea第一步的方法換成Lesk算法。

271870fc-58b3-11eb-8b86-12bb97331649.png

責任編輯:xj

原文標題:【ACL2020】基于語境的文本分類弱監督學習

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 文本分類
    +關注

    關注

    0

    文章

    18

    瀏覽量

    7468
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136940
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124398

原文標題:【ACL2020】基于語境的文本分類弱監督學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    :自動化任務(如數據預處理、模型訓練調度)。Git版本控制:團隊協作開發(如分支管理、代碼合并)。 機器學習監督學習:線性回歸、邏輯回歸、決策樹、SVM等。無監督學習:聚類(K-Means)、降維
    發表于 02-27 10:53

    機器學習特征工程:分類變量的數值化處理方法

    編碼是機器學習流程里最容易被低估的環節之一,模型沒辦法直接處理文本形式的分類數據,尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的
    的頭像 發表于 02-10 15:58 ?330次閱讀
    機器<b class='flag-5'>學習</b>特征工程:<b class='flag-5'>分類</b>變量的數值化處理方法

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監督學習不同,監督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環境、動作和結果連起來,讓機器自己探索哪個行為長期看起來更有利
    的頭像 發表于 01-31 09:34 ?641次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    機器學習深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?190次閱讀
    機器<b class='flag-5'>學習</b>和<b class='flag-5'>深度</b><b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監督學習:無需缺陷樣本即可訓練高精度檢測模型 持續更新:課程內容持續更新,已
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監督學習:無需缺陷樣本即可訓練高精度檢測模型 持續更新:課程內容持續更新,已
    發表于 12-03 13:50

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業制造領域 復雜缺陷檢測:處理傳統算法難以描述的非標準化缺陷模式 非標產品分類:對形狀、顏色、紋理多變的產品進行智能分類 外觀質量評估:基于
    的頭像 發表于 11-27 10:19 ?220次閱讀

    自動駕駛中常提的“強化學習”是個啥?

    下,就是一個智能體在環境里行動,它能觀察到環境的一些信息,并做出一個動作,然后環境會給出一個反饋(獎勵或懲罰),智能體的目標是把長期得到的獎勵累積到最大。和監督學習不同,強化學習沒有一一對應的“正確答案”給它看,而是靠與環境交互、自我探索來發現
    的頭像 發表于 10-23 09:00 ?664次閱讀
    自動駕駛中常提的“強化<b class='flag-5'>學習</b>”是個啥?

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現“神經網絡”、“黑箱”、“標注”等術語。這些概
    的頭像 發表于 09-10 17:38 ?901次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    深度學習對工業物聯網有哪些幫助

    、實施路徑三個維度展開分析: 一、深度學習如何突破工業物聯網的技術瓶頸? 1. 非結構化數據處理:解鎖“沉睡數據”價值 傳統困境 :工業物聯網中70%以上的數據為非結構化數據(如設備振動波形、紅外圖像、日志文本),傳統方法難以
    的頭像 發表于 08-20 14:56 ?1024次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    任正非說 AI已經確定是第四次工業革命 那么如何從容地加入進來呢?

    的基本理論。了解監督學習、無監督學習和強化學習的基本原理。例如,在監督學習中,理解如何通過標注數據來訓練模型進行分類或回歸任務,像通過大量的
    發表于 07-08 17:44

    使用MATLAB進行無監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的先驗知識。
    的頭像 發表于 05-16 14:48 ?1436次閱讀
    使用MATLAB進行無<b class='flag-5'>監督學習</b>

    嵌入式AI技術之深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經網絡實現機器學習,網絡的每個層都將對輸入的數據做一次抽象,多層神經網絡構成深度學習的框架,可以深度理解數據中所要表示的規律。從原理上看,使用
    的頭像 發表于 04-02 18:21 ?1516次閱讀

    如何排除深度學習工作臺上量化OpenVINO?的特定層?

    無法確定如何排除要在深度學習工作臺上量化OpenVINO?特定層
    發表于 03-06 07:31