国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NLP:如何在只有詞典的情況下提升NER落地效果

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:NLP從入門到放棄 ? 2021-01-07 14:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天介紹一個論文autoner[1],主要是為了探索如何在只有詞典的情況下,提升NER實際落地效果;

首先,如果手中含有詞典,常規(guī)操作就是遠程監(jiān)督打標數(shù)據(jù),然后做NER;

遠程監(jiān)督一個比較常見的操作就是使用我們手中的字典,通過字符匹配的形式對文本中可能存在的實體打標。

但是對于這種遠程監(jiān)督的形式,存在比較多的問題,這個論文主要探討兩種:多標簽(multi-label tokens) 和標簽不完善的問題;

針對multi-label tokens,論文提出的是Fuzzy-LSTM-CRF,簡單講就是講LSTM后面的CRF層變?yōu)榱薋uzzy CRF層,可以在處理tokens對應多標簽的情況下,不犧牲計算效率;

第二個問題標簽不完善,是因為字典畢竟是有限的,不可能把所有的實體都覆蓋到,那么句子中沒有被字典打標成功的詞組很有可能也是某種實體,但是遠程監(jiān)督并沒有對此做處理。

針對這個問題,本文提出了一種比較新的標注框架,簡單來講就是在這新的框架中,不去預測單個的token的類別,而是去判斷兩個相鄰的tokens是不是在同一個實體中被tied;

上面只是我自己簡單的分類,其實存在的兩個問題和兩種解決架構是相互融合在一起的,具體的我們下面談。

0. 詞典形式簡單介紹

首先定義一下詞典形式,包含兩個部分,第一部分是實體的表面名稱,這個包括規(guī)范名稱和對應的同義詞列表;第二個部分就是實體的類型;

其次,詞典的標注肯定是有限的,肯定存在不在詞典中的某些詞組但是也屬于某種類型的實體;

對于這部分實體,我自己的理解大體可以包含兩個大部分;第一個大部分就是比如說【科技】這個領域覆蓋的【科技】實體有有限的,所以有漏網(wǎng)之魚;第二部分就是詞典的實體類型是有限的,比如詞典總共包含2個實體類型,但是你真實的文本包含更多的實體類型,存在漏網(wǎng)之魚。

對于這些漏網(wǎng)之魚的實體,我們的策略是這樣的。

首先通過AutoPhrase從文中挖掘出來高質量短語,然后統(tǒng)一賦值為unknown type,也就是未知類型。

1. Fuzzy-LSTM-CRF

1.1 標注策略

梳理一下,我們現(xiàn)在手上有詞典;

詞典包含兩個部分,一部分是已知實體類型(假設是2個,當然可能更多或者更少);另一個部分就是我們通過某種方式挖掘出來的高質量實體對應的未知類型;

然后我們通過手中的詞典對原始無標注文本進行打標;

那么現(xiàn)在對于句子中的某個token,它存在三種可能性;第一它可能是已知實體類型中的一種或者多種;第二它屬于未知類型;第三是屬于O這種情況,就是non-entity;

基于傳統(tǒng)架構BIlstm-CRF如何解決多標簽的問題?

其實本質解決的思路很簡單。對于原來的每個token,只是預測一個類別,現(xiàn)在是預測多個類別就可以了。

詳細點講就是,首先對于遠程監(jiān)督標注的過程,我們會使用三種策略。

我們先假設我們使用{I;O;B;E;S}的標注形式;

第一,對于某個token,如果它對應到了已知類型中的某一個或者多個實體,那么按照對應的位置直接標記上,不要漏掉;也就是說{I;B;E;S}和對應的一個或者多個實體類型對上標;

第二對于對于某個token,如果屬于未知類型,那么對應的這個token就需要把所有已知實體類型(區(qū)別于上面的一個或者多個已知實體類型)和 {I,O, B, E, S}對應的打標上;

注意,這里并沒有使用未知實體類型,而是使用的所有的已知實體類型;

第三個對于既不屬于已知類型的,也不屬于未知類型的,全部打上O;

1.2 Fuzzy-LSTM-CRF 模型架構

其實很好理解,傳統(tǒng)的CRF最大化唯一一條有效的標注序列。在這里,我們最大化所有有可能的標注序列。

公式如下:

55dae800-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF優(yōu)化公式

看架構圖:

55ff4420-5036-11eb-8b86-12bb97331649.jpg

Fuzzy-LSTM-CRF

2. AutoNER

區(qū)別于Fuzzy-LSTM-CRF 模型沿用傳統(tǒng)架構,在這里論文提出一種新的標注架構-Tie or Break;

這個標注框架更加關注的是當前token和上一個token是否在同一個實體里面;如果在同一個實體里面,那么就標注為Tie;

如果當前單詞和上一個單詞至少有一個在unkonw類型的高質量短語,那么標注為unkonw,其他情況標注為Break;

優(yōu)化過程:把實體識別和實體類型判定分離開。

原論文中描述的是先做實體識別,兩個Break之間作為一個span,然后做實體類型判定;

實體識別中,對于當前單詞和上一個單詞之間類別的的輸出,對Tie和Break做二分類損失,如果類別是unkown類別,直接跳過,不計算損失。

概率公式如下:

564b4866-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

56a37752-5036-11eb-8b86-12bb97331649.jpg

tie_break_loss

第二步預測實體類型,包含None實體類型

unkonw這種,知道這屬于實體,在高質量短語詞典中,但是不知道短語類型,所在這里我們會標注為None實體類型。

其他的不在詞典中的,當然也就會被標注為None實體類型。

為了應對多標簽,也就是同一個實體對應不同的類別,這里修改了最后的CE損失函數(shù):

57264272-5036-11eb-8b86-12bb97331649.jpg

CE_總

575eea46-5036-11eb-8b86-12bb97331649.jpg

CE_Soft

使用的是軟標簽的進行的CE的計算,并沒有使用硬標簽。

對應的是在遠程監(jiān)督中,當前實體真實類型標簽集合。從公式我們可以知道,尤其是看分母,在不屬于這個集合的標簽概率我們并沒有計算在內(nèi)。

總結

多提一個小細節(jié),就是高質量短語的挖掘使用的是AutoPhrase,大家可以去試一下;

論文提出兩種結構解決多標簽和標簽不完善的問題。

首先對于標簽不完善,使用上面提到的AutoPhrase去挖掘文本中的高質量短語,作為詞典中的未知類型。

在Fuzzy-LSTM-CRF,需要注意的細節(jié)是,對于未知類型的標注,我們使用的策略是標注所有已知類型;

對于AutoNER,有兩個細節(jié)需要注意,一個是新的標注框架tie or break,重點在于去看兩個相鄰單詞是否屬于同一個實體;第二個細節(jié)就是為了解決多標簽問題,修改了損失函數(shù),使用的軟標簽;

責任編輯:xj

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13986
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:【論文解讀】如何在只有詞典的情況下提升NER落地效果

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    全流程場景落地 在線測長儀多方位部署 滿足各種檢測需求

    品;落地效果:客戶投訴率下降80%,品牌口碑提升。 全流程可靠:不只是“能測”,更要“長期穩(wěn)測” 承包全流程管控,“可靠性”是底線。測長儀通過“硬件防護+軟件適配”,確保在不同工況長期穩(wěn)定運行: 硬件
    發(fā)表于 11-04 14:23

    灌封膠導熱粉在絕緣情況下、對電阻率有沒有提升

    在確保使用絕緣類導熱粉體且分散良好的前提下,灌封膠的電阻率不僅不會下降,反而可能得到顯著的維持、穩(wěn)定甚至間接提升。 這是一個看似矛盾但至關重要的概念。許多人擔心添加任何填料都可
    的頭像 發(fā)表于 10-30 14:55 ?349次閱讀

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT?

    何在“SD 卡 NAND 閃存”的情況下使用 Non-OS NVTFAT
    發(fā)表于 09-01 07:58

    當不同的數(shù)據(jù)放在同一個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)的情況下更改一些單獨的數(shù)據(jù)?

    當不同的數(shù)據(jù)放在同一個Flash頁面上時,如何在不影響其他數(shù)據(jù)的情況下更改一些單獨的數(shù)據(jù)?
    發(fā)表于 08-22 06:25

    何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列?

    我迫切需要知道如何在沒有 NuLink 編程器的情況下執(zhí)行 SWD 解鎖序列。
    發(fā)表于 08-18 07:04

    請問DTU的設備號都在什么情況下需要填寫,填寫的規(guī)則是什么?

    DTU的設備號都在什么情況下需要填寫,填寫的規(guī)則是什么?
    發(fā)表于 08-07 07:50

    請問CYW20835在sleep mode的情況下,不進入SDS或HIDOF的情況下,底電流最低是多少?

    請問CYW20835在sleep mode的情況下,不進入SDS或HIDOF的情況下,底電流最低是多少?
    發(fā)表于 07-07 07:54

    在外部實質信號不突變的情況下,經(jīng)過AD9278采集到的數(shù)據(jù)突然變小,為什么?

    應用場景:使用AD9278采集超聲信號 問題:在外部實質信號不突變的情況下,經(jīng)過AD9278采集到的數(shù)據(jù)突然變小!!!為什么??? 如果將TGC減小,這個突然變暗的點會往下移, 但是通過FPGA抓到
    發(fā)表于 06-10 06:39

    何在CYPM1322中不使用內(nèi)部電源的情況下使用VBUS_C_P引腳實現(xiàn)SINK?

    我想在CYPM1322中不使用內(nèi)部電源的情況下通過VBUS_C_P1輸入電源進行SINK操作,但是由于CC RD功能不起作用,所以無法工作。 當將 5V 作為內(nèi)部電源施加到 CYPM1322 器件
    發(fā)表于 05-08 07:32

    FX2LP如何在不更改硬件的情況下對其進行重新編程?

    我正在使用 FX2LP/ CY7C68013A-128AXC設備(定制板),我有一些問題需要您的幫助。 1如果我的 EEPROM 已經(jīng)有固件并且正在運行,如何在不更改硬件的情況下對其進行重新
    發(fā)表于 05-06 11:16

    FX2LP如何在不重新插入USB電纜的情況下在dfu過程之后重新啟動設備?

    我正在使用 FX2LP 設備,我想通過將 iic 文件寫入 eeprom 為我的設備添加“設備更新固件”功能。它運行得很好,但我不知道如何在不重新插入 USB 電纜的情況下在 dfu 過程之后重新啟動設備?
    發(fā)表于 05-06 06:18

    LPC1227FBD48如何在沒有SDK的情況下配置FreeRTOS?

    我想在基于 LPC1227FBD48 系列的現(xiàn)有項目中使用 FreeRTOS,但我們沒有可用于控制器的 SDK。我們?nèi)?b class='flag-5'>何在沒有 SDK 的情況下配置 FreeRTOS。
    發(fā)表于 04-02 06:33

    何在不使用DMA的情況下減少ECSPI CS高電平時間?

    。我收到一個建議,要在禁用 DMA 的情況下使用本機 CS。 [這是link到整個討論。 現(xiàn)在,我已經(jīng)禁用了 DMA,并將原生 CS 用于 SPI 外設,但我仍然觀察到 CS 在大約 5 μs 內(nèi)保持
    發(fā)表于 03-31 06:56

    無感直流BLDC,大占空比情況下失步怎么解決?

    無感直流BLDC,大占空比情況下失步問題
    發(fā)表于 03-11 08:00

    在不安裝OpenCV的情況下是否可以使用OpenVINO?工具套件?

    無法在不安裝 OpenCV 的情況下確定是否可以使用OpenVINO?工具套件
    發(fā)表于 03-06 07:12